論文の概要: DriveAgent-R1: Advancing VLM-based Autonomous Driving with Hybrid Thinking and Active Perception
- arxiv url: http://arxiv.org/abs/2507.20879v1
- Date: Mon, 28 Jul 2025 14:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.159328
- Title: DriveAgent-R1: Advancing VLM-based Autonomous Driving with Hybrid Thinking and Active Perception
- Title(参考訳): DriveAgent-R1:ハイブリッド思考とアクティブ知覚によるVLMに基づく自律運転の改善
- Authors: Weicheng Zheng, Xiaofei Mao, Nanfei Ye, Pengxiang Li, Kun Zhan, Xianpeng Lang, Hang Zhao,
- Abstract要約: VLM(Vision-Language Models)は自動運転を推進しているが、そのポテンシャルは意思決定と受動的知覚によって制約されている。
DriveAgent-R1を導入し,これらの課題に対処する。
DriveAgent-R1は、効率的なテキストベースと詳細なツールベースの推論を適応的に切り替えるHybrid-Thinkingフレームワークと、不確実性を積極的に解決するビジョンツールキットを備えたActive Perceptionメカニズムの2つの中心的な革新を特徴としている。
- 参考スコア(独自算出の注目度): 25.389702138137217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are advancing autonomous driving, yet their potential is constrained by myopic decision-making and passive perception, limiting reliability in complex environments. We introduce DriveAgent-R1 to tackle these challenges in long-horizon, high-level behavioral decision-making. DriveAgent-R1 features two core innovations: a Hybrid-Thinking framework that adaptively switches between efficient text-based and in-depth tool-based reasoning, and an Active Perception mechanism with a vision toolkit to proactively resolve uncertainties, thereby balancing decision-making efficiency and reliability. The agent is trained using a novel, three-stage progressive reinforcement learning strategy designed to master these hybrid capabilities. Extensive experiments demonstrate that DriveAgent-R1 achieves state-of-the-art performance, outperforming even leading proprietary large multimodal models, such as Claude Sonnet 4. Ablation studies validate our approach and confirm that the agent's decisions are robustly grounded in actively perceived visual evidence, paving a path toward safer and more intelligent autonomous systems.
- Abstract(参考訳): VLM(Vision-Language Models)は自律走行を推し進めているが、そのポテンシャルは筋力的な意思決定と受動的知覚によって制約され、複雑な環境での信頼性が制限される。
本稿では,DriveAgent-R1を導入し,これらの課題に対処する。
DriveAgent-R1は、効率的なテキストベースと詳細なツールベースの推論を適応的に切り替えるHybrid-Thinkingフレームワークと、不確実性を積極的に解決するビジョンツールキットを備えたActive Perceptionメカニズムである。
このエージェントは、これらのハイブリッド能力を習得するために設計された、新しい3段階のプログレッシブ強化学習戦略を用いて訓練される。
大規模な実験により、DriveAgent-R1は最先端のパフォーマンスを達成し、Claude Sonnet 4のようなプロプライエタリな大規模マルチモーダルモデルよりも優れていた。
アブレーション研究は、我々のアプローチを検証し、エージェントの判断が積極的に認識される視覚的証拠にしっかりと根ざしていることを確認し、より安全でインテリジェントな自律システムへの道を開く。
関連論文リスト
- AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z) - Confidence-Regulated Generative Diffusion Models for Reliable AI Agent Migration in Vehicular Metaverses [55.70043755630583]
車両用AIエージェントには、環境認識、意思決定、行動実行能力が与えられている。
本稿では、信頼性の高い車両用AIエージェントマイグレーションフレームワークを提案し、信頼性の高い動的マイグレーションと効率的なリソーススケジューリングを実現する。
我々は,AIエージェントのマイグレーション決定を効率的に生成する信頼性制御型生成拡散モデル(CGDM)を開発した。
論文 参考訳(メタデータ) (2025-05-19T05:04:48Z) - Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6465312554513]
この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。
まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。
我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
論文 参考訳(メタデータ) (2025-05-13T17:59:20Z) - ManeuverGPT Agentic Control for Safe Autonomous Stunt Maneuvers [0.0]
本稿では,自律走行車における高ダイナミックなスタント動作の生成と実行のための新しいフレームワークManeuverGPTを提案する。
3つの特殊エージェントからなるエージェントアーキテクチャを提案する。
実験により、複数の車両モデル間でのJターン実行が成功した。
論文 参考訳(メタデータ) (2025-03-12T03:51:41Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - A Language Agent for Autonomous Driving [31.359413767191608]
本稿では,人間のような知性を自律運転システムに統合するためのパラダイムシフトを提案する。
当社のアプローチはAgent-Driverと呼ばれ,汎用ツールライブラリを導入して,従来の自律走行パイプラインを変革する。
LLM(Large Language Models)によって駆動されるエージェントドライブには直感的な常識と堅牢な推論能力が備わっています。
論文 参考訳(メタデータ) (2023-11-17T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。