論文の概要: Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones
- arxiv url: http://arxiv.org/abs/2511.15208v1
- Date: Wed, 19 Nov 2025 07:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.694788
- Title: Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones
- Title(参考訳): 拡散大言語モデルの推論は動的拡散領域に集中する
- Authors: Ranfei Chen, Ming Chen, Kaifei Wang,
- Abstract要約: 本稿では,RL の目標,報酬,計算予算を変更することなく,高平均ステップへの勾配更新を動的に再配置する軽量なステップ選択戦略である Adaptive Trajectory Policy Optimization (ATPO) を提案する。
ATPOは、dLLM RLを進める上で、軌道動力学の活用が鍵であることを示し、ベンチマーク全体にわたって精度とトレーニング安定性の推論においてかなりの向上をもたらす。
- 参考スコア(独自算出の注目度): 3.7312377768685714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Large Language Models (dLLMs) are rapidly emerging alongside autoregressive models as a powerful paradigm for complex reasoning, with reinforcement learning increasingly used for downstream alignment. Existing trajectory-based RL methods uniformly allocate policy gradients across denoising steps, implicitly treating all steps as equally important. We challenge this assumption by analyzing trajectories with several step-level metrics: entropy-based uncertainty, Confidence-Margin (CM) uncertainty, and Rate of Entropy Change (RoEC). These reveal structured "zones of confusion": transient spikes in uncertainty and instability that strongly predict final success or failure, while most steps remain stable. We propose Adaptive Trajectory Policy Optimization (ATPO), a lightweight step-selection strategy that dynamically reallocates gradient updates to these high-leverage steps without changing the RL objective, rewards, or compute budget. Using a hybrid RoEC+CM rule, ATPO delivers substantial gains in reasoning accuracy and training stability across benchmarks, showing that exploiting trajectory dynamics is key to advancing dLLM RL.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、複雑な推論のための強力なパラダイムとして自己回帰モデルとともに急速に発展し、下流のアライメントに強化学習がますます使われている。
既存の軌道に基づくRL法は、全てのステップが同様に重要であるとして暗黙的に扱われる。
我々は,この仮定を,エントロピーに基づく不確実性,信頼・マージン(CM)の不確実性,およびエントロピー変化率(RoEC)という,いくつかの段階的な指標で分析することで解決する。
最終的な成功や失敗を強く予測する不確実性と不安定性の急激なスパイクは、ほとんどのステップは安定している。
本稿では、RLの目標、報酬、計算予算を変更することなく、これらの高平均ステップへの勾配更新を動的に再配置する軽量なステップ選択戦略であるAdaptive Trajectory Policy Optimization (ATPO)を提案する。
ハイブリッドなRoEC+CMルールを用いることで、ATPOはベンチマーク間で精度とトレーニングの安定性を推算し、軌道力学の活用がdLLM RLを前進させる鍵であることを示している。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Adversarial Diffusion for Robust Reinforcement Learning [46.44328012099217]
我々はロバスト強化学習(AD-RRL)のための逆拡散を導入する。
AD-RRLは拡散過程を導出し、トレーニング中に最悪の場合の軌跡を生成し、累積リターンの条件値(CVaR)を効果的に最適化する。
標準ベンチマークにおける実験結果から、AD-RRLは既存のロバストなRL法と比較して、優れたロバスト性と性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-28T12:34:35Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。