Fugu-MT 論文翻訳(概要): The Path Matters: Learning a Token-Commitment Policy for Diffusion Language Models

論文の概要: The Path Matters: Learning a Token-Commitment Policy for Diffusion Language Models

arxiv url: http://arxiv.org/abs/2605.24697v1
Date: Sat, 23 May 2026 18:23:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.33409
Title: The Path Matters: Learning a Token-Commitment Policy for Diffusion Language Models
Title（参考訳）: 経路:拡散言語モデルのためのトークンコミットメント政策の学習
Authors: Bohang Sun, Max Zhu, Francesco Caso, Jindong Gu, Junchi Yu, Philip Torr, Pietro Liò, Jialin Yu,
Abstract要約: トークンのコミットメントは、再利用可能なトレースステートポリシとして学ぶことができる、と私たちは主張する。凍結拡散言語モデルのためにこのポリシーをインスタンス化する軽量プラグインコントローラであるTraceLockを紹介する。
参考スコア（独自算出の注目度）: 52.93186090124315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion large language models promise faster generation by refining many token positions in parallel, but this parallelism introduces a hidden control problem: which proposed tokens should be transferred into the partially decoded sequence at each step? We refer to this decision as token commitment. Existing frozen-generator decoders largely rely on hand-designed confidence rules or block-specific acceptance filters. We argue that token commitment can instead be learned as a reusable trace-state policy. We introduce TraceLock, a lightweight plug-in controller that instantiates this policy for a frozen diffusion language model. Since oracle commitment times are unavailable, TraceLock derives self-supervision from future stability: at decoding step t, a proposed token for position i is labeled stable if it matches the final token at position i after the full decoding trace completes. The controller scores variable-length trace states and decides which active token proposals should be committed to the partially decoded sequence. Once trained for a given frozen backbone, the controller can be deployed across local-window widths, generation lengths, and step budgets without retraining or per-setting calibration. Experiments on question answering, mathematical reasoning, and code generation show that TraceLock improves the quality-step tradeoff over heuristic and learned baselines, with particularly stable behavior under cross-setting deployment. Diagnostic analyses show that its decisions are not reducible to scalar confidence, suggesting that frozen diffusion language models expose a learnable space of commitment trajectories beyond confidence-based decoding. Code is available at https://github.com/BobSun98/TraceLock.
Abstract（参考訳）: 拡散型大規模言語モデルは、多くのトークン位置を並列に精製することでより高速な生成を約束するが、この並列性は隠れた制御問題をもたらす: 提案されたトークンは各ステップで部分的にデコードされたシーケンスに転送されるべきか? 私たちはこの決定をトークンコミットメントと呼んでいます。既存のフリーズジェネレータデコーダは手書きの信頼ルールやブロック固有の受け入れフィルタに大きく依存している。トークンのコミットメントは、再利用可能なトレースステートポリシとして学ぶことができる、と私たちは主張する。凍結拡散言語モデルのためにこのポリシーをインスタンス化する軽量プラグインコントローラであるTraceLockを紹介する。オラクルのコミットメント時間は利用できないため、TraceLockは将来の安定性から自己スーパービジョンを導出する: 復号ステップtでは、完全な復号トレース完了後の最終トークンと一致する場合、位置 i に対する提案されたトークンが安定であるとラベル付けされる。コントローラは可変長のトレース状態を記録し、どのアクティブトークンの提案を部分的に復号されたシーケンスにコミットすべきかを決定する。凍結したバックボーンのトレーニングが完了すると、コントローラはローカルウィンドウ幅、生成長、ステップ予算に展開できる。質問応答、数学的推論、コード生成の実験では、TraceLockはヒューリスティックで学習されたベースラインよりも品質とステップのトレードオフを改善し、特にクロスセットデプロイメント時の安定した振る舞いを示している。診断分析により、その決定はスカラー信頼には適用できないことが示され、凍結拡散言語モデルは、信頼に基づく復号化を超えた、学習可能なコミットメント軌道の空間を明らかにすることが示唆された。コードはhttps://github.com/BobSun98/TraceLock.comで入手できる。

関連論文リスト

When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment [6.48455847613423]
言語モデルは最終回答を与える前に推論を生成することが多いが、可視性のある答えは、モデルの回答がいつ安定するかを明らかにしない。我々はこの問題を、狭義の計算可能な対象である無限回答優先安定化(enmphfinite-aswer preference stabilization)を通して研究する。モデル状態と特定解動詞化子に対しては、モデル自身の継続確率を有限解集合に投影する。バイナリタスクでは、これは正確なlog-oddsコード、$()=S_(mathrmyesmid)-S_(mathrmnomid)が生成される。
論文参考訳（メタデータ） (2026-05-07T08:34:59Z)
When to Commit? Towards Variable-Size Self-Contained Blocks for Discrete Diffusion Language Models [36.08108046941572]
ブロックコミットメントの原則的基準として自己完結性を提案する。ブロックは、予測がFuture-Aware(FA)またはNo-Future(NF)と整合性を維持している場合、自己完結する。我々は,自己完結性を予測整合性に結びつける理論的正当性を提供し,VSBの有効性を検証した広範囲な実験を行った。
論文参考訳（メタデータ） (2026-04-27T03:21:07Z)
Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文参考訳（メタデータ） (2026-04-14T06:48:33Z)
DIVERSED: Relaxed Speculative Decoding via Dynamic Ensemble Verification [29.426184837710952]
投機的復号化は,複数のトークンを並列に起草することで,大規模言語モデルの推論を高速化する有効な手法である。生成品質を保ちながら時間効率を向上させる緩やかな検証フレームワークである動的検証緩和投機復号法(DIVERSED)を提案する。本研究では,DIVERSEDが標準的な投機的復号法に比べてかなり高い推論効率を実現することを示す。
論文参考訳（メタデータ） (2026-04-08T21:52:32Z)
STDec: Spatio-Temporal Stability Guided Decoding for dLLMs [49.55447757907809]
大規模拡散言語モデル(dLLM)は、自己回帰パラダイムに代わる有望な選択肢と見なされ、急速な進歩を遂げている。ほとんどのdLLMデコーダは依然としてグローバルな信頼しきい値を採用しており、近隣のデコード状態や予測トークンIDの時間的一貫性からローカルコンテキストをモデル化していない。我々は,dLLMデコーディングにおいて時間的安定性に近い強い安定性を観察し,そのアプローチには空間的認識復号と時間的認識復号が含まれる。
論文参考訳（メタデータ） (2026-04-07T18:13:31Z)
Internal Flow Signatures for Self-Checking and Refinement in LLMs [8.540143367732949]
固定されたブロック間監視境界における深さ方向のダイナミックスから決定生成を監査するエンフェナールフローシグネチャを導入する。この手法はバイアス中心の監視によりトークンワイズ動作を安定化し、その後、コンパクトな読み出し整列部分空間の軌跡を要約する。これらのシグネチャに基づいて訓練された軽量GRU検証器は、ベースモデルを変更することなく自己チェックを行う。
論文参考訳（メタデータ） (2026-02-02T10:05:54Z)
Scaling the Scaling Logic: Agentic Meta-Synthesis of Logic Reasoning [18.75349680577575]
SSLogicは、コントロール可能な困難を伴う継続的家族進化のためのフレームワークである。 SSLogicに進化したデータのトレーニングは、一致したステップでシードベースラインに対して一貫した利得を得る。
論文参考訳（メタデータ） (2026-01-23T13:26:01Z)
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文参考訳（メタデータ） (2025-09-28T07:00:15Z)
Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。半自己回帰推論による微調整ミスアライメントの標準化我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文参考訳（メタデータ） (2025-08-27T02:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。