論文の概要: Debugging code world models
- arxiv url: http://arxiv.org/abs/2602.07672v1
- Date: Sat, 07 Feb 2026 19:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.753921
- Title: Debugging code world models
- Title(参考訳): コードワールドモデルのデバッグ
- Authors: Babak Rahmani,
- Abstract要約: コードワールドモデル(Code World Models、CWM)は、プログラムの実行をシミュレートするために訓練された言語モデルである。
CWMは局所的セマンティック実行と長期状態追跡という2つの相補的な視点から研究する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code World Models (CWMs) are language models trained to simulate program execution by predicting explicit runtime state after every executed command. This execution-based world modeling enables internal verification within the model, offering an alternative to natural language chain-of-thought reasoning. However, the sources of errors and the nature of CWMs' limitations remain poorly understood. We study CWMs from two complementary perspectives: local semantic execution and long-horizon state tracking. On real-code benchmarks, we identify two dominant failure regimes. First, dense runtime state reveals produce token-intensive execution traces, leading to token-budget exhaustion on programs with long execution histories. Second, failures disproportionately concentrate in string-valued state, which we attribute to limitations of subword tokenization rather than program structure. To study long-horizon behavior, we use a controlled permutation-tracking benchmark that isolates state propagation under action execution. We show that long-horizon degradation is driven primarily by incorrect action generation: when actions are replaced with ground-truth commands, a Transformer-based CWM propagates state accurately over long horizons, despite known limitations of Transformers in long-horizon state tracking. These findings suggest directions for more efficient supervision and state representations in CWMs that are better aligned with program execution and data types.
- Abstract(参考訳): コードワールドモデル(Code World Models、CWM)は、プログラムの実行をシミュレートするために訓練された言語モデルである。
この実行ベースの世界モデリングは、モデルの内部検証を可能にし、自然言語の連鎖推論に代わるものを提供する。
しかし、誤りの原因とCWMsの限界の性質はよく分かっていない。
CWMは局所的セマンティック実行と長期状態追跡という2つの相補的な視点から研究する。
実コードベンチマークでは、2つの主要な障害体制を特定します。
まず、高密度な実行状態はトークン集約的な実行トレースを生成し、長い実行履歴を持つプログラムにトークン予算の枯渇をもたらす。
第二に、失敗はプログラム構造よりもサブワードトークン化の制限による文字列値の状態に不均等に集中する。
本研究では,動作中の状態の伝搬を分離する制御された置換追跡ベンチマークを用いる。
動作がグラウンドトルースコマンドに置き換えられた場合、トランスフォーマーベースのCWMは、ロングホライズ上でのトランスフォーマーの既知の制限にもかかわらず、長い水平線上で正確に状態を伝播する。
これらの結果から,プログラムの実行やデータ型に整合したCWMのより効率的な監視と状態表現の方向性が示唆された。
関連論文リスト
- Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility [36.41073880422337]
RoundTripCodeEval(RTCE)は、4つの異なるコード実行推論タスクからなる包括的なベンチマークである。
ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。
RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
論文 参考訳(メタデータ) (2026-01-19T21:09:48Z) - Unitary fault-tolerant encoding of Pauli states in surface codes [0.8314040122511801]
表面符号におけるパウリ固有状態を作成するための一元的かつスケーラブルで、距離保存可能な符号化方式を提案する。
我々の研究は、表面コード状態の計測ベースとユニタリエンコーディングのギャップを埋める。
論文 参考訳(メタデータ) (2026-01-08T17:00:25Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - On the Limits of Innate Planning in Large Language Models [13.604285158704466]
大規模言語モデル(LLM)は多くのベンチマークで印象的な結果を得るが、計画とステートフルな推論の能力は未だに不明である。
コード実行や他のツールを使わずに、これらの能力を直接研究し、8-puzzleというステートトラッキングとゴール指向の計画を必要とする古典的なタスクを使います。
論文 参考訳(メタデータ) (2025-11-26T17:08:13Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - Cassandra: Efficient Enforcement of Sequential Execution for Cryptographic Programs (Extended Version) [3.34371579019566]
定時プログラミングは、サイドチャネル攻撃に対する暗号プログラムを強化するための広くデプロイされたアプローチである。
現代のプロセッサは、プログラムの意図しないパスを過渡的に実行することで、標準の定時ポリシーの前提に反することが多い。
我々は,一定時間暗号コードのシーケンシャル実行を強制する新しいハードウェア/ソフトウェア機構であるCassandraを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:34:48Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。