論文の概要: Driving Intents Amplify Planning-Oriented Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.12625v2
- Date: Thu, 14 May 2026 17:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 18:18:46.746609
- Title: Driving Intents Amplify Planning-Oriented Reinforcement Learning
- Title(参考訳): 計画指向の強化学習を増幅する駆動インテント
- Authors: Hengtong Lu, Victor Shea-Jay Huang, Chengmin Yang, Pengfei Jing, Jifeng Dai, Yan Xie, Benjin Zhu,
- Abstract要約: 1つのシーンでトレーニングされた連続アクションポリシーは、モード崩壊に悩まされる。
DIALは2段階の駆動インテント・アンプ強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 31.3298075350454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-action policies trained on a single demonstrated trajectory per scene suffer from mode collapse: samples cluster around the demonstrated maneuver and the policy cannot represent semantically distinct alternatives. Under preference-based evaluation, this caps best-of-N performance -- even oracle selection cannot recover what the sampling distribution does not contain. We introduce DIAL, a two-stage Driving-Intent-Amplified reinforcement Learning framework for preference-aligned continuous-action driving policies. In the first stage, DIAL conditions the flow-matching action head on a discrete intent label with classifier-free guidance (CFG), which expands the sampling distribution along distinct maneuver modes and breaks single-demonstration mode collapse. In the second stage, DIAL carries this expanded distribution into preference RL through multi-intent GRPO, which spans all intent classes within every preference group and prevents fine-tuning from re-collapsing around the currently preferred mode. Instantiated for end-to-end driving with eight rule-derived intents and evaluated on WOD-E2E: competitive Vision-to-Action (VA) and Vision-Language-Action (VLA) Supervised Finetuning (SFT) baselines plateau below the human-driven demonstration at best-of-128, with the strongest prior (RAP) capping at Rater Feedback Score (RFS) 8.5 even with best-of-64; intent-CFG sampling lifts this ceiling to RFS 9.14 at best-of-128, surpassing both the prior best (RAP 8.5) and the human-driven demonstration (8.13) for the first time; and multi-intent GRPO improves held-out RFS from 7.681 to 8.211, while every single-intent baseline peaks lower and degrades by training end. These results suggest that the bottleneck of preference RL on continuous-action policies trained from demonstrations is not only how to update the policy, but to expand and preserve the sampling distribution being optimized.
- Abstract(参考訳): ひとつのシーンでトレーニングされた連続的なアクションポリシーは、モード崩壊に悩まされる: 実証された操作の周りのサンプルクラスタとポリシーは、意味的に異なる選択肢を表現できない。
選好に基づく評価では、これは最高のNパフォーマンスを達成します -- オラクルの選択でさえ、サンプリング分布が含まないものを回復できません。
DIAL(Dial)は、優先整合型連続動作駆動政策のための2段階駆動型強化学習フレームワークである。
第1段階では、DIALは、フローマッチングアクションヘッドを個別のインテントラベルに、分類器フリーガイダンス(CFG)で条件付けし、異なる操作モードに沿ってサンプリング分布を拡張し、単発モードの崩壊を壊す。
第2段階では、DIALはこの拡張された分布をマルチインテントGRPOを通じて優先RLに伝達する。
競争力のあるビジョン・ツー・アクション (VA) とビジョン・ランゲージ・アクション (VLA) スーパーバイザード・ファインタニング (SFT) ベースライン 最高128で人間主導のデモの下、最強のRAP (RAP) キャッピングは最高64でも最強のRAP (RFS) 8.5で、インテントCFGは最高128でRFS 9.14まで上昇し、初回は人間駆動のデモ (RAP 8.5) と人間駆動のデモ (8.13) の両方を上回った。
これらの結果から,実証から訓練した継続的行動政策に対する選好RLのボトルネックは,政策の更新方法だけでなく,最適化されたサンプリング分布の拡大と保存方法であることが示された。
関連論文リスト
- Reflective Prompted Policy Optimization: Trajectory-Grounded Revision and Salience Bias [0.0]
本稿では,コンパクトなポリシークラスに対するポリシー探索のための2段階LLMフレームワークを提案する。
Critic-LLMは、結果のロールアウトを検査し、観察された状態、行動、報奨に基づくターゲットリビジョンを提案する。
R2POは10の環境で最高の報酬を得る。
論文 参考訳(メタデータ) (2026-05-08T14:26:40Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - SiMPO: Measure Matching for Online Diffusion Reinforcement Learning [52.46919717963149]
一般単調関数を持つ拡散RLにおける再重み付けスキームを一般化する,シンプルで統一的なフレームワークであるSiMPOを紹介する。
SiMPOは2段階の測度マッチングレンズを介して拡散RLを再考する。
我々は、負の再重み付けが準最適行動から政策を積極的に反映していることを示す幾何学的解釈を提供する。
論文 参考訳(メタデータ) (2026-03-10T22:01:13Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文 参考訳(メタデータ) (2025-05-28T09:44:27Z) - GVPO: Group Variance Policy Optimization for Large Language Model Post-Training [19.005045649097987]
群変数ポリシー最適化(GVPO)は、KL制約された報酬を直接重みに含める分析解である。
GVPOには2つの大きな利点がある: ユニークな最適解、正確にはKL制約の報酬目的、および柔軟なサンプリング分布をサポートする。
GVPOは、理論的な保証を実用的適応性で統一することにより、信頼性と汎用性を備えたLLMポストトレーニングのための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-28T09:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。