論文の概要: OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic
- arxiv url: http://arxiv.org/abs/2512.01830v1
- Date: Mon, 01 Dec 2025 16:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.948387
- Title: OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic
- Title(参考訳): OpenREAD: LLM-as-Criticによるエンドツーエンド自動運転のための強化されたオープンエンディング
- Authors: Songyan Zhang, Wenhui Huang, Zhan Chen, Chua Jiahao Collister, Qihang Huang, Chen Lv,
- Abstract要約: OpenREADは、OpenEN-ended Reasoning強化視覚言語モデル(VLM)ベースの自律運転(AD)フレームワークである。
これは、高レベルの推論から低レベルの軌道計画まで、全スペクトルにわたるエンドツーエンド強化微調整(RFT)を可能にする。
広範囲な実験により、共同エンドツーエンドのRFTは上流と下流の両方で大幅な改善をもたらすことが確認された。
- 参考スコア(独自算出の注目度): 36.81423048719463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, two-stage fine-tuning strategies, e.g., acquiring essential driving knowledge through supervised fine-tuning (SFT) and further enhancing decision-making and planning via reinforcement fine-tuning (RFT), have shown strong potential in advancing the knowledge-driven autonomous driving (AD) paradigm. However, the learning nature of SFT still limits the generalization of reasoning, thereby constraining the full potential of driving performance. Meanwhile, current RFT approaches are primarily applied to downstream tasks, since scene understanding is an open-ended problem where corresponding rewards are difficult to quantify. To address these limitations, we propose OpenREAD, an OPEN-ended REasoning reinforced vision-language model (VLM)-based autonomous driving (AD) framework that enables end-to-end RFT across the full spectrum from high-level reasoning to low-level trajectory planning. Specifically, we begin by constructing large-scale Chain-of-Thought (CoT) annotations on open-source driving-related knowledge datasets, and employ the powerful Qwen3 large language model (LLM) as the critic in RFT to quantify reasoning quality for open-ended questions during reward modeling. Extensive experiments confirm that joint end-to-end RFT yields substantial improvements in both upstream and downstream tasks, enabling OpenREAD to achieve state-of-the-art performance on reasoning and planning benchmarks.
- Abstract(参考訳): 近年,2段階の微調整戦略,例えば,教師付き微調整(SFT)による本質的な運転知識の獲得,さらに強化微調整(RFT)による意思決定と計画の強化が,知識駆動型自律運転(AD)パラダイムの進展に強い可能性を示している。
しかし、SFTの学習特性は推論の一般化を制限し、それによって駆動性能の潜在能力を制限している。
一方、現在のRFTアプローチは、シーン理解は、対応する報酬の定量化が難しいオープンエンド問題であるため、主に下流タスクに適用される。
これらの制約に対処するために,OpenREADを提案する。OpenREADは,高レベルの推論から低レベルの軌道計画に至るまで,全スペクトルにわたってエンド・ツー・エンドのRFTを実現する,OPEN拡張視覚言語モデル(VLM)ベースの自律走行(AD)フレームワークである。
具体的には、オープンソースの運転関連知識データセットに大規模なChain-of-Thought(CoT)アノテーションを構築し、RFTにおける批判として強力なQwen3大言語モデル(LLM)を用いて、報酬モデリング中のオープンエンド質問の推論品質を定量化する。
大規模な実験により、ジョイントエンド・ツー・エンドのRTTはアップストリームタスクとダウンストリームタスクの両方で大幅に改善され、OpenREADは推論と計画ベンチマークで最先端のパフォーマンスを達成できることがわかった。
関連論文リスト
- AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。