Fugu-MT 論文翻訳(概要): Debugging code world models

論文の概要: Debugging code world models

arxiv url: http://arxiv.org/abs/2602.07672v1
Date: Sat, 07 Feb 2026 19:32:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.753921
Title: Debugging code world models
Title（参考訳）: コードワールドモデルのデバッグ
Authors: Babak Rahmani,
Abstract要約: コードワールドモデル(Code World Models、CWM)は、プログラムの実行をシミュレートするために訓練された言語モデルである。 CWMは局所的セマンティック実行と長期状態追跡という2つの相補的な視点から研究する。
参考スコア（独自算出の注目度）: 1.0152838128195467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code World Models (CWMs) are language models trained to simulate program execution by predicting explicit runtime state after every executed command. This execution-based world modeling enables internal verification within the model, offering an alternative to natural language chain-of-thought reasoning. However, the sources of errors and the nature of CWMs' limitations remain poorly understood. We study CWMs from two complementary perspectives: local semantic execution and long-horizon state tracking. On real-code benchmarks, we identify two dominant failure regimes. First, dense runtime state reveals produce token-intensive execution traces, leading to token-budget exhaustion on programs with long execution histories. Second, failures disproportionately concentrate in string-valued state, which we attribute to limitations of subword tokenization rather than program structure. To study long-horizon behavior, we use a controlled permutation-tracking benchmark that isolates state propagation under action execution. We show that long-horizon degradation is driven primarily by incorrect action generation: when actions are replaced with ground-truth commands, a Transformer-based CWM propagates state accurately over long horizons, despite known limitations of Transformers in long-horizon state tracking. These findings suggest directions for more efficient supervision and state representations in CWMs that are better aligned with program execution and data types.
Abstract（参考訳）: コードワールドモデル(Code World Models、CWM)は、プログラムの実行をシミュレートするために訓練された言語モデルである。この実行ベースの世界モデリングは、モデルの内部検証を可能にし、自然言語の連鎖推論に代わるものを提供する。しかし、誤りの原因とCWMsの限界の性質はよく分かっていない。 CWMは局所的セマンティック実行と長期状態追跡という2つの相補的な視点から研究する。実コードベンチマークでは、2つの主要な障害体制を特定します。まず、高密度な実行状態はトークン集約的な実行トレースを生成し、長い実行履歴を持つプログラムにトークン予算の枯渇をもたらす。第二に、失敗はプログラム構造よりもサブワードトークン化の制限による文字列値の状態に不均等に集中する。本研究では,動作中の状態の伝搬を分離する制御された置換追跡ベンチマークを用いる。動作がグラウンドトルースコマンドに置き換えられた場合、トランスフォーマーベースのCWMは、ロングホライズ上でのトランスフォーマーの既知の制限にもかかわらず、長い水平線上で正確に状態を伝播する。これらの結果から,プログラムの実行やデータ型に整合したCWMのより効率的な監視と状態表現の方向性が示唆された。

関連論文リスト

Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文参考訳（メタデータ） (2026-02-19T13:48:29Z)
Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility [36.41073880422337]
RoundTripCodeEval(RTCE)は、4つの異なるコード実行推論タスクからなる包括的なベンチマークである。ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。 RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
論文参考訳（メタデータ） (2026-01-19T21:09:48Z)
Unitary fault-tolerant encoding of Pauli states in surface codes [0.8314040122511801]
表面符号におけるパウリ固有状態を作成するための一元的かつスケーラブルで、距離保存可能な符号化方式を提案する。我々の研究は、表面コード状態の計測ベースとユニタリエンコーディングのギャップを埋める。
論文参考訳（メタデータ） (2026-01-08T17:00:25Z)
WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。 WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文参考訳（メタデータ） (2025-12-28T01:25:48Z)
On the Limits of Innate Planning in Large Language Models [13.604285158704466]
大規模言語モデル(LLM)は多くのベンチマークで印象的な結果を得るが、計画とステートフルな推論の能力は未だに不明である。コード実行や他のツールを使わずに、これらの能力を直接研究し、8-puzzleというステートトラッキングとゴール指向の計画を必要とする古典的なタスクを使います。
論文参考訳（メタデータ） (2025-11-26T17:08:13Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-27T20:32:58Z)
Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。 TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文参考訳（メタデータ） (2025-02-28T07:24:33Z)
Cassandra: Efficient Enforcement of Sequential Execution for Cryptographic Programs (Extended Version) [3.34371579019566]
定時プログラミングは、サイドチャネル攻撃に対する暗号プログラムを強化するための広くデプロイされたアプローチである。現代のプロセッサは、プログラムの意図しないパスを過渡的に実行することで、標準の定時ポリシーの前提に反することが多い。我々は,一定時間暗号コードのシーケンシャル実行を強制する新しいハードウェア/ソフトウェア機構であるCassandraを提案する。
論文参考訳（メタデータ） (2024-06-06T17:34:48Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文参考訳（メタデータ） (2021-01-28T13:35:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。