論文の概要: OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.14044v1
- Date: Tue, 16 Dec 2025 03:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.56568
- Title: OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving
- Title(参考訳): OmniDrive-R1: 信頼できるビジョンランゲージ自動運転のための強化駆動型インターリーブ型マルチモーダルチェーン
- Authors: Zhenguo Zhang, Haohan Zhen, Yishen Wang, Le Xu, Tianchen Deng, Xuefeng Chen, Qu Chen, Bo Zhang, Wuxiong Huang,
- Abstract要約: 我々は自動運転用に設計されたエンドツーエンドのVLMフレームワークであるOmniDrive-R1を紹介する。
私たちの中心となるイノベーションは、強化駆動のビジュアルグラウンド機能です。
この機能は、純粋な2段階強化学習訓練パイプラインとClip-GRPOアルゴリズムによって実現されている。
- 参考スコア(独自算出の注目度): 11.793091014248025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Vision-Language Models (VLMs) in safety-critical domains like autonomous driving (AD) is critically hindered by reliability failures, most notably object hallucination. This failure stems from their reliance on ungrounded, text-based Chain-of-Thought (CoT) reasoning.While existing multi-modal CoT approaches attempt mitigation, they suffer from two fundamental flaws: (1) decoupled perception and reasoning stages that prevent end-to-end joint optimization, and (2) reliance on expensive, dense localization labels.Thus we introduce OmniDrive-R1, an end-to-end VLM framework designed for autonomous driving, which unifies perception and reasoning through an interleaved Multi-modal Chain-of-Thought (iMCoT) mechanism. Our core innovation is an Reinforcement-driven visual grounding capability, enabling the model to autonomously direct its attention and "zoom in" on critical regions for fine-grained analysis. This capability is enabled by our pure two-stage reinforcement learning training pipeline and Clip-GRPO algorithm. Crucially, Clip-GRPO introduces an annotation-free, process-based grounding reward. This reward not only eliminates the need for dense labels but also circumvents the instability of external tool calls by enforcing real-time cross-modal consistency between the visual focus and the textual reasoning. Extensive experiments on DriveLMM-o1 demonstrate our model's significant improvements. Compared to the baseline Qwen2.5VL-7B, OmniDrive-R1 improves the overall reasoning score from 51.77% to 80.35%, and the final answer accuracy from 37.81% to 73.62%.
- Abstract(参考訳): VLM(Vision-Language Models)の自律運転(AD)のような安全クリティカルな領域への展開は、信頼性の欠陥、特に物体幻覚によって著しく妨げられている。
既存のマルチモーダル CoT アプローチは緩和を試みるが,(1) エンド・ツー・エンドのジョイント最適化を阻害する認識と推論段階の分離,(2) 高価な高密度なローカライゼーションラベルへの依存,2) 自律運転用に設計されたエンド・ツー・エンドのVLMフレームワークであるOmniDrive-R1を導入し,その認識と推論を,インターリーブされたマルチモーダル Chain-of-Thought (iMCoT) メカニズムを通じて統一する。
私たちの中心となるイノベーションは、強化駆動の視覚的接地機能です。
この機能は、純粋な2段階強化学習訓練パイプラインとClip-GRPOアルゴリズムによって実現されている。
重要な点として、Clip-GRPOはアノテーションのない、プロセスベースのグラウンディング報酬を導入している。
この報酬は、高密度なラベルの必要性をなくすだけでなく、視覚フォーカスとテキスト推論の間のリアルタイムの相互一貫性を強制することによって、外部ツールコールの不安定さを回避する。
DriveLMM-o1に関する大規模な実験は、我々のモデルの大幅な改善を実証している。
ベースラインのQwen2.5VL-7Bと比較して、OmniDrive-R1は全体の推論スコアを51.77%から80.35%に改善し、最終的な答え精度は37.81%から73.62%に向上した。
関連論文リスト
- DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving [21.10362636088305]
Chain of Thought (CoT)はVision Language Action (VLA)モデルで広く採用されている。
AdaThinkDriveは、高速でスローな思考にインスパイアされたデュアルモード推論機構を備えた新しいVLAフレームワークである。
論文 参考訳(メタデータ) (2025-09-17T07:35:39Z) - AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving [26.169506297338234]
マルチモーダル大規模言語モデル(MLLM)は、エンドツーエンド(E2E)自動運転の分野で大きな注目を集めている。
本稿では,包括的推論による閉ループ運転のためのMLLMファインチューニングフレームワークReasonPlanを提案する。
本手法は,Bench2Driveベンチマークにおいて,19%のL2と16.1の駆動スコアでE2E模倣学習法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T14:12:38Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。