論文の概要: DriveAgent-R1: Advancing VLM-based Autonomous Driving with Active Perception and Hybrid Thinking
- arxiv url: http://arxiv.org/abs/2507.20879v2
- Date: Fri, 26 Sep 2025 10:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.548542
- Title: DriveAgent-R1: Advancing VLM-based Autonomous Driving with Active Perception and Hybrid Thinking
- Title(参考訳): DriveAgent-R1:アクティブ知覚とハイブリッド思考によるVLMに基づく自律運転の改善
- Authors: Weicheng Zheng, Xiaofei Mao, Nanfei Ye, Pengxiang Li, Kun Zhan, Xianpeng Lang, Hang Zhao,
- Abstract要約: 本稿では,計画のためのアクティブな認識が可能な最初の自律運転エージェントであるDriveAgent-R1を紹介する。
複雑なシナリオでは、DriveAgent-R1は視覚的推論を行うためのツールを積極的に呼び出し、その決定を視覚的証拠にしっかりと基礎づける。
本稿では,人間ドライバーの認知パターンにインスパイアされたハイブリッド思考フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.98300989562812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Vision-Language Models (VLMs) has significantly advanced end-to-end autonomous driving, demonstrating powerful reasoning abilities for high-level behavior planning tasks. However, existing methods are often constrained by a passive perception paradigm, relying solely on text-based reasoning. This passivity restricts the model's capacity to actively seek crucial visual evidence when faced with uncertainty. To address this, we introduce DriveAgent-R1, the first autonomous driving agent capable of active perception for planning. In complex scenarios, DriveAgent-R1 proactively invokes tools to perform visual reasoning, firmly grounding its decisions in visual evidence, thereby enhancing both interpretability and reliability. Furthermore, we propose a hybrid thinking framework, inspired by human driver cognitive patterns, allowing the agent to adaptively switch between efficient text-only reasoning and robust tool-augmented visual reasoning based on scene complexity. This capability is cultivated through a three-stage progressive training strategy, featuring a core Cascaded Reinforcement Learning (Cascaded RL) phase. Extensive experiments on the Drive-Internal dataset, which is rich in long-tail scenarios, and the public nuScenes dataset show that, with only 3B parameters, DriveAgent-R1 achieves competitive performance comparable to top closed model systems such as GPT-5 and to human driving proficiency while remaining deployment-friendly, offering a proven path toward building more intelligent autonomous driving systems.
- Abstract(参考訳): VLM(Vision-Language Models)の出現は、高度な行動計画タスクに対する強力な推論能力を示す、エンドツーエンドの自動運転を著しく進歩させた。
しかし、既存の手法は、テキストベースの推論にのみ依存して、受動的知覚パラダイムによって制約されることが多い。
この通過性は、不確実性に直面した場合、モデルが重要な視覚的証拠を積極的に探す能力を制限する。
そこで本研究では,計画のためのアクティブな認識が可能な,最初の自律運転エージェントであるDriveAgent-R1を紹介する。
複雑なシナリオでは、DriveAgent-R1は視覚的推論を行うツールを積極的に起動し、その決定を視覚的証拠にしっかりと根拠付け、解釈可能性と信頼性の両方を高める。
さらに,人間ドライバーの認知パターンにインスパイアされたハイブリッド思考フレームワークを提案する。これによりエージェントは,効率の良いテキストのみの推論と,シーンの複雑さに基づいた堅牢なツール強化ビジュアル推論を適応的に切り替えることができる。
この能力は,Cascaded Reinforcement Learning (Cascaded RL) フェーズを基本とした,3段階のプログレッシブトレーニング戦略を通じて育成される。
DriveAgent-R1は3Bパラメータだけで、GPT-5のようなトップクローズドなモデルシステムや人間の運転能力に匹敵するパフォーマンスを達成し、デプロイメントに優しいままで、よりインテリジェントな自動運転システムを構築するための実証済みの道を提供する。
関連論文リスト
- ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z) - Confidence-Regulated Generative Diffusion Models for Reliable AI Agent Migration in Vehicular Metaverses [55.70043755630583]
車両用AIエージェントには、環境認識、意思決定、行動実行能力が与えられている。
本稿では、信頼性の高い車両用AIエージェントマイグレーションフレームワークを提案し、信頼性の高い動的マイグレーションと効率的なリソーススケジューリングを実現する。
我々は,AIエージェントのマイグレーション決定を効率的に生成する信頼性制御型生成拡散モデル(CGDM)を開発した。
論文 参考訳(メタデータ) (2025-05-19T05:04:48Z) - Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6465312554513]
この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。
まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。
我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
論文 参考訳(メタデータ) (2025-05-13T17:59:20Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - ManeuverGPT Agentic Control for Safe Autonomous Stunt Maneuvers [0.0]
本稿では,自律走行車における高ダイナミックなスタント動作の生成と実行のための新しいフレームワークManeuverGPTを提案する。
3つの特殊エージェントからなるエージェントアーキテクチャを提案する。
実験により、複数の車両モデル間でのJターン実行が成功した。
論文 参考訳(メタデータ) (2025-03-12T03:51:41Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - A Language Agent for Autonomous Driving [31.359413767191608]
本稿では,人間のような知性を自律運転システムに統合するためのパラダイムシフトを提案する。
当社のアプローチはAgent-Driverと呼ばれ,汎用ツールライブラリを導入して,従来の自律走行パイプラインを変革する。
LLM(Large Language Models)によって駆動されるエージェントドライブには直感的な常識と堅牢な推論能力が備わっています。
論文 参考訳(メタデータ) (2023-11-17T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。