Fugu-MT 論文翻訳(概要): DriveAgent-R1: Advancing VLM-based Autonomous Driving with Hybrid Thinking and Active Perception

論文の概要: DriveAgent-R1: Advancing VLM-based Autonomous Driving with Hybrid Thinking and Active Perception

arxiv url: http://arxiv.org/abs/2507.20879v1
Date: Mon, 28 Jul 2025 14:33:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 16:23:58.159328
Title: DriveAgent-R1: Advancing VLM-based Autonomous Driving with Hybrid Thinking and Active Perception
Title（参考訳）: DriveAgent-R1:ハイブリッド思考とアクティブ知覚によるVLMに基づく自律運転の改善
Authors: Weicheng Zheng, Xiaofei Mao, Nanfei Ye, Pengxiang Li, Kun Zhan, Xianpeng Lang, Hang Zhao,
Abstract要約: VLM(Vision-Language Models)は自動運転を推進しているが、そのポテンシャルは意思決定と受動的知覚によって制約されている。 DriveAgent-R1を導入し,これらの課題に対処する。 DriveAgent-R1は、効率的なテキストベースと詳細なツールベースの推論を適応的に切り替えるHybrid-Thinkingフレームワークと、不確実性を積極的に解決するビジョンツールキットを備えたActive Perceptionメカニズムの2つの中心的な革新を特徴としている。
参考スコア（独自算出の注目度）: 25.389702138137217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) are advancing autonomous driving, yet their potential is constrained by myopic decision-making and passive perception, limiting reliability in complex environments. We introduce DriveAgent-R1 to tackle these challenges in long-horizon, high-level behavioral decision-making. DriveAgent-R1 features two core innovations: a Hybrid-Thinking framework that adaptively switches between efficient text-based and in-depth tool-based reasoning, and an Active Perception mechanism with a vision toolkit to proactively resolve uncertainties, thereby balancing decision-making efficiency and reliability. The agent is trained using a novel, three-stage progressive reinforcement learning strategy designed to master these hybrid capabilities. Extensive experiments demonstrate that DriveAgent-R1 achieves state-of-the-art performance, outperforming even leading proprietary large multimodal models, such as Claude Sonnet 4. Ablation studies validate our approach and confirm that the agent's decisions are robustly grounded in actively perceived visual evidence, paving a path toward safer and more intelligent autonomous systems.
Abstract（参考訳）: VLM(Vision-Language Models)は自律走行を推し進めているが、そのポテンシャルは筋力的な意思決定と受動的知覚によって制約され、複雑な環境での信頼性が制限される。本稿では,DriveAgent-R1を導入し,これらの課題に対処する。 DriveAgent-R1は、効率的なテキストベースと詳細なツールベースの推論を適応的に切り替えるHybrid-Thinkingフレームワークと、不確実性を積極的に解決するビジョンツールキットを備えたActive Perceptionメカニズムである。このエージェントは、これらのハイブリッド能力を習得するために設計された、新しい3段階のプログレッシブ強化学習戦略を用いて訓練される。大規模な実験により、DriveAgent-R1は最先端のパフォーマンスを達成し、Claude Sonnet 4のようなプロプライエタリな大規模マルチモーダルモデルよりも優れていた。アブレーション研究は、我々のアプローチを検証し、エージェントの判断が積極的に認識される視覚的証拠にしっかりと根ざしていることを確認し、より安全でインテリジェントな自律システムへの道を開く。

関連論文リスト

ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [28.378854340190973]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合する、先駆的な統合フレームワークであるAgentThinkを紹介する。
論文参考訳（メタデータ） (2025-05-21T09:27:43Z)
Confidence-Regulated Generative Diffusion Models for Reliable AI Agent Migration in Vehicular Metaverses [55.70043755630583]
車両用AIエージェントには、環境認識、意思決定、行動実行能力が与えられている。本稿では、信頼性の高い車両用AIエージェントマイグレーションフレームワークを提案し、信頼性の高い動的マイグレーションと効率的なリソーススケジューリングを実現する。我々は,AIエージェントのマイグレーション決定を効率的に生成する信頼性制御型生成拡散モデル(CGDM)を開発した。
論文参考訳（メタデータ） (2025-05-19T05:04:48Z)
Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6465312554513]
この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
論文参考訳（メタデータ） (2025-05-13T17:59:20Z)
RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文参考訳（メタデータ） (2025-03-18T03:25:57Z)
ManeuverGPT Agentic Control for Safe Autonomous Stunt Maneuvers [0.0]
本稿では,自律走行車における高ダイナミックなスタント動作の生成と実行のための新しいフレームワークManeuverGPTを提案する。 3つの特殊エージェントからなるエージェントアーキテクチャを提案する。実験により、複数の車両モデル間でのJターン実行が成功した。
論文参考訳（メタデータ） (2025-03-12T03:51:41Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
A Language Agent for Autonomous Driving [31.359413767191608]
本稿では,人間のような知性を自律運転システムに統合するためのパラダイムシフトを提案する。当社のアプローチはAgent-Driverと呼ばれ,汎用ツールライブラリを導入して,従来の自律走行パイプラインを変革する。 LLM(Large Language Models)によって駆動されるエージェントドライブには直感的な常識と堅牢な推論能力が備わっています。
論文参考訳（メタデータ） (2023-11-17T18:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。