論文の概要: AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.13769v1
- Date: Wed, 17 Sep 2025 07:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.762364
- Title: AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving
- Title(参考訳): AdaThinkDrive: 自律運転のための強化学習による適応的思考
- Authors: Yuechen Luo, Fang Li, Shaoqing Xu, Zhiyi Lai, Lei Yang, Qimao Chen, Ziang Luo, Zixun Xie, Shengyin Jiang, Jiaxin Liu, Long Chen, Bing Wang, Zhi-xin Yang,
- Abstract要約: Chain of Thought (CoT)はVision Language Action (VLA)モデルで広く採用されている。
AdaThinkDriveは、高速でスローな思考にインスパイアされたデュアルモード推論機構を備えた新しいVLAフレームワークである。
- 参考スコア(独自算出の注目度): 21.10362636088305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning technology like Chain of Thought (CoT) has been widely adopted in Vision Language Action (VLA) models, it demonstrates promising capabilities in end to end autonomous driving. However, recent efforts to integrate CoT reasoning often fall short in simple scenarios, introducing unnecessary computational overhead without improving decision quality. To address this, we propose AdaThinkDrive, a novel VLA framework with a dual mode reasoning mechanism inspired by fast and slow thinking. First, our framework is pretrained on large scale autonomous driving (AD) scenarios using both question answering (QA) and trajectory datasets to acquire world knowledge and driving commonsense. During supervised fine tuning (SFT), we introduce a two mode dataset, fast answering (w/o CoT) and slow thinking (with CoT), enabling the model to distinguish between scenarios that require reasoning. Furthermore, an Adaptive Think Reward strategy is proposed in conjunction with the Group Relative Policy Optimization (GRPO), which rewards the model for selectively applying CoT by comparing trajectory quality across different reasoning modes. Extensive experiments on the Navsim benchmark show that AdaThinkDrive achieves a PDMS of 90.3, surpassing the best vision only baseline by 1.7 points. Moreover, ablations show that AdaThinkDrive surpasses both the never Think and always Think baselines, improving PDMS by 2.0 and 1.4, respectively. It also reduces inference time by 14% compared to the always Think baseline, demonstrating its ability to balance accuracy and efficiency through adaptive reasoning.
- Abstract(参考訳): Chain of Thought(CoT)のような推論技術は、Vision Language Action(VLA)モデルで広く採用されているが、エンドツーエンドの自動運転における有望な能力を示している。
しかし、最近のCoT推論の統合は単純なシナリオでは不十分であり、決定品質を改善することなく不要な計算オーバーヘッドを導入している。
そこで本研究では,高速で低速な思考にインスパイアされたデュアルモード推論機構を備えた新しいVLAフレームワークであるAdaThinkDriveを提案する。
まず,質問応答(QA)と軌跡データセットを用いて,大規模自律運転(AD)シナリオで事前学習を行い,世界的知識の獲得とコモンセンスの推進を行う。
教師付き微調整(SFT)において、高速応答(w/o CoT)とスロー思考(CoT)という2モードのデータセットを導入し、推論を必要とするシナリオを区別できるようにする。
さらに、異なる推論モード間の軌道品質を比較することにより、CoTを選択的に適用するモデルに報酬を与えるグループ相対政策最適化(GRPO)とともに、適応的シンク・リワード戦略を提案する。
Navsimベンチマークの大規模な実験によると、AdaThinkDriveはPDMSが90.3で、ベースラインを1.7ポイント上回っている。
さらに、AdaThinkDriveは、かつてないThinkベースラインと常にThinkベースラインの両方を上回り、PDMSを2.0と1.4に改善している。
また、いつものThinkベースラインと比べて推論時間を14%削減し、適応的推論を通じて正確性と効率のバランスをとる能力を示している。
関連論文リスト
- ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving [14.981675960513606]
既存の手法は、非構造的推論、一般化の貧弱、そして人間の運転との不一致に悩まされている。
我々は,CoTガイドによる自律運転のためのプログレッシブRL微調整フレームワークであるThinkDriveを提案する。
その結果,ThinkDriveは,試験で1.45%,1.95%,1.01%,測定強度,精度でそれぞれ強いRLベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-08T08:30:36Z) - OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving [11.793091014248025]
我々は自動運転用に設計されたエンドツーエンドのVLMフレームワークであるOmniDrive-R1を紹介する。
私たちの中心となるイノベーションは、強化駆動のビジュアルグラウンド機能です。
この機能は、純粋な2段階強化学習訓練パイプラインとClip-GRPOアルゴリズムによって実現されている。
論文 参考訳(メタデータ) (2025-12-16T03:19:28Z) - MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文 参考訳(メタデータ) (2025-12-15T18:31:32Z) - Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning [57.96134674544638]
本稿では,タスクの難易度に応じてモデルの推論深度を動的に調整する適応推論フレームワークを提案する。
本研究の枠組みは,(1)大規模推論データを用いた基本推論能力を備えた適応監視ファインチューニング段階,(2)タスク複雑性と報酬フィードバックに基づく推論行動の最適化を行う適応強化学習段階の2段階からなる。
論文 参考訳(メタデータ) (2025-12-03T13:33:28Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - DriveAgent-R1: Advancing VLM-based Autonomous Driving with Active Perception and Hybrid Thinking [33.98300989562812]
本稿では,計画のためのアクティブな認識が可能な最初の自律運転エージェントであるDriveAgent-R1を紹介する。
複雑なシナリオでは、DriveAgent-R1は視覚的推論を行うためのツールを積極的に呼び出し、その決定を視覚的証拠にしっかりと基礎づける。
本稿では,人間ドライバーの認知パターンにインスパイアされたハイブリッド思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-28T14:33:15Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving [22.293019898794963]
我々は,4つのコアタスク上の構造化推論プロセスとして,自律運転を定式化する統合トレーニングフレームワークであるAutoDriveRLを提案する。
このフレームワーク内では、リアルタイム意思決定用に設計されたクロスタスク推論VLMであるDriveRXを訓練する。
本分析は,視覚エンコーダ設計と報酬誘導推論圧縮の影響を明らかにする。
論文 参考訳(メタデータ) (2025-05-27T03:21:04Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。
我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。