論文の概要: AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.13769v1
- Date: Wed, 17 Sep 2025 07:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.762364
- Title: AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving
- Title(参考訳): AdaThinkDrive: 自律運転のための強化学習による適応的思考
- Authors: Yuechen Luo, Fang Li, Shaoqing Xu, Zhiyi Lai, Lei Yang, Qimao Chen, Ziang Luo, Zixun Xie, Shengyin Jiang, Jiaxin Liu, Long Chen, Bing Wang, Zhi-xin Yang,
- Abstract要約: Chain of Thought (CoT)はVision Language Action (VLA)モデルで広く採用されている。
AdaThinkDriveは、高速でスローな思考にインスパイアされたデュアルモード推論機構を備えた新しいVLAフレームワークである。
- 参考スコア(独自算出の注目度): 21.10362636088305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning technology like Chain of Thought (CoT) has been widely adopted in Vision Language Action (VLA) models, it demonstrates promising capabilities in end to end autonomous driving. However, recent efforts to integrate CoT reasoning often fall short in simple scenarios, introducing unnecessary computational overhead without improving decision quality. To address this, we propose AdaThinkDrive, a novel VLA framework with a dual mode reasoning mechanism inspired by fast and slow thinking. First, our framework is pretrained on large scale autonomous driving (AD) scenarios using both question answering (QA) and trajectory datasets to acquire world knowledge and driving commonsense. During supervised fine tuning (SFT), we introduce a two mode dataset, fast answering (w/o CoT) and slow thinking (with CoT), enabling the model to distinguish between scenarios that require reasoning. Furthermore, an Adaptive Think Reward strategy is proposed in conjunction with the Group Relative Policy Optimization (GRPO), which rewards the model for selectively applying CoT by comparing trajectory quality across different reasoning modes. Extensive experiments on the Navsim benchmark show that AdaThinkDrive achieves a PDMS of 90.3, surpassing the best vision only baseline by 1.7 points. Moreover, ablations show that AdaThinkDrive surpasses both the never Think and always Think baselines, improving PDMS by 2.0 and 1.4, respectively. It also reduces inference time by 14% compared to the always Think baseline, demonstrating its ability to balance accuracy and efficiency through adaptive reasoning.
- Abstract(参考訳): Chain of Thought(CoT)のような推論技術は、Vision Language Action(VLA)モデルで広く採用されているが、エンドツーエンドの自動運転における有望な能力を示している。
しかし、最近のCoT推論の統合は単純なシナリオでは不十分であり、決定品質を改善することなく不要な計算オーバーヘッドを導入している。
そこで本研究では,高速で低速な思考にインスパイアされたデュアルモード推論機構を備えた新しいVLAフレームワークであるAdaThinkDriveを提案する。
まず,質問応答(QA)と軌跡データセットを用いて,大規模自律運転(AD)シナリオで事前学習を行い,世界的知識の獲得とコモンセンスの推進を行う。
教師付き微調整(SFT)において、高速応答(w/o CoT)とスロー思考(CoT)という2モードのデータセットを導入し、推論を必要とするシナリオを区別できるようにする。
さらに、異なる推論モード間の軌道品質を比較することにより、CoTを選択的に適用するモデルに報酬を与えるグループ相対政策最適化(GRPO)とともに、適応的シンク・リワード戦略を提案する。
Navsimベンチマークの大規模な実験によると、AdaThinkDriveはPDMSが90.3で、ベースラインを1.7ポイント上回っている。
さらに、AdaThinkDriveは、かつてないThinkベースラインと常にThinkベースラインの両方を上回り、PDMSを2.0と1.4に改善している。
また、いつものThinkベースラインと比べて推論時間を14%削減し、適応的推論を通じて正確性と効率のバランスをとる能力を示している。
関連論文リスト
- AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving [22.293019898794963]
我々は,4つのコアタスク上の構造化推論プロセスとして,自律運転を定式化する統合トレーニングフレームワークであるAutoDriveRLを提案する。
このフレームワーク内では、リアルタイム意思決定用に設計されたクロスタスク推論VLMであるDriveRXを訓練する。
本分析は,視覚エンコーダ設計と報酬誘導推論圧縮の影響を明らかにする。
論文 参考訳(メタデータ) (2025-05-27T03:21:04Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。
我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。