論文の概要: Read the Trace, Steer the Path: Trajectory-Aware Reinforcement Learning for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.04396v1
- Date: Wed, 03 Jun 2026 03:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.508472
- Title: Read the Trace, Steer the Path: Trajectory-Aware Reinforcement Learning for Diffusion Language Models
- Title(参考訳): 軌跡を読み, 経路を操る: 拡散言語モデルのための軌道認識強化学習
- Authors: Anant Khandelwal, Manish Gupta,
- Abstract要約: 本稿では,dLLM-RLアルゴリズムであるCAPR(Cached-Amortized Path Refinement)を導入する。
ロールアウトのコストは、平らなロールアウトの約0.75倍、木のロールアウトの約0.6倍に削減される。
4x4 Sudoku、Countdown、GSM8K、Math500の合計で、最強の木構造ベースラインとステップ毎の計算の3分の1以下で一致している。
- 参考スコア(独自算出の注目度): 26.87342465042021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) generate responses by iteratively unmasking and revising many positions in parallel. This process leaves a rich denoising trace depicting which tokens become confident, which remain unstable, and when commitments form. Existing dLLM reinforcement learning methods use this signal only weakly. Flat rollouts are cheap, but assign a single outcome reward to the whole trajectory. Tree rollouts provide finer, verifiable training signals by branching partial trajectories and propagating leaf rewards upward, but are compute intensive. We ask whether the denoising trace itself can provide tree-like supervision without tree-level compute. We introduce CAPR (Cached-Amortized Path Refinement), a dLLM-RL algorithm that summarizes the denoising trace into a compact path state, uses cached trajectory states to generate cheap sibling continuations, and trains a block-level value head for local block-wise supervision. Under a block-wise unmasking schedule, CAPR records path-state and block-progress features, then redistributes the final outcome reward across blocks according to the tokens revealed in each block. This trains the value head to convert one sparse reward into block-level PPO weights. CAPR therefore recovers much of the granularity of tree search while avoiding full tree expansion, reducing rollout-generation cost to roughly 0.75x that of flat rollouts and 0.6x that of tree rollouts (under standard settings). Across 4x4 Sudoku, Countdown, GSM8K, and Math500, on dense and mixture-of-experts LLaDA backbones, CAPR sets a new state of the art for RL-tuned dLLMs at 256- and 512-token budgets. On Sudoku, it matches the strongest tree-structured baseline at less than one third of the per-step compute.
- Abstract(参考訳): 拡散大言語モデル (dLLMs) は、反復的にアンマスキングし、多くの位置を並列に修正することで応答を生成する。
このプロセスは、どのトークンが自信を持ち、不安定で、いつコミットメントが形成されるかを示す、豊かな認知的トレースを残します。
既存のdLLM強化学習法では、この信号は弱いだけである。
フラットロールアウトは安価だが、すべての軌道に単一の結果報酬を割り当てる。
木のロールアウトは、部分的な軌道を分岐し、葉の報酬を上方に伝播させることによって、より微細で検証可能な訓練信号を提供するが、計算集約的である。
木レベル計算を使わずに木のような監視を行えるかどうかを問う。
本稿では,DLLM-RLアルゴリズムであるCAPR(Cached-Amortized Path Refinement)を導入する。このアルゴリズムは,デノナイズトレースをコンパクトパス状態に要約し,キャッシュされたトラジェクトリ状態を用いて,安価なシブリング継続を生成するとともに,ブロックレベルの値ヘッドをローカルブロック管理のために訓練する。
ブロック単位のアンマスキングスケジュールの下で、CAPRはパス状態とブロックプログレスの特徴を記録し、各ブロックで明らかになったトークンに従って、ブロック間で最終結果の報酬を再分配する。
これにより、値ヘッドをトレーニングして、1つのスパース報酬をブロックレベルのPPO重みに変換する。
そのためCAPRは、ツリーの完全な拡張を回避しながら、ツリーサーチの粒度を回復し、ロールアウト生成コストは、フラットロールアウトの約0.75倍、ツリーロールアウトの約0.6倍に削減する(標準設定)。
4x4 Sudoku、Countdown、GSM8K、Math500の4x4 Sudoku、密集したLLaDAバックボーン上でCAPRは256および512の予算でRLで調整されたdLLMの最先端を新たに設定する。
Sudokuでは、最強の木構造ベースラインをステップ毎の計算の3分の1以下で一致させる。
関連論文リスト
- TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。