論文の概要: OmniReason: A Temporal-Guided Vision-Language-Action Framework for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.00789v1
- Date: Sun, 31 Aug 2025 10:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.396204
- Title: OmniReason: A Temporal-Guided Vision-Language-Action Framework for Autonomous Driving
- Title(参考訳): OmniReason: 自動運転のためのテンポラルガイド型ビジョンランゲージ・アクション・フレームワーク
- Authors: Pei Liu, Qingtian Ning, Xinyan Lu, Haipeng Liu, Weiliang Ma, Dangen She, Peng Jia, Xianpeng Lang, Jun Ma,
- Abstract要約: OmniReasonは動的3次元環境を協調的にモデル化することで時間的推論を確立する。
また,シーンコンテキストに時間記憶を統合するOmniReason-Agentアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 6.136909494522169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) have demonstrated impressive spatial reasoning capabilities for autonomous driving, yet existing methods predominantly focus on static scene understanding while neglecting the essential temporal dimension of real-world driving scenarios. To address this critical limitation, we propose the OmniReason framework, which establishes robust spatiotemporal reasoning by jointly modeling dynamic 3D environments and their underlying decision-making processes. Our work makes two fundamental advances: (1) We introduce OmniReason-Data, two large-scale vision-language-action (VLA) datasets with dense spatiotemporal annotations and natural language explanations, generated through a novel hallucination-mitigated auto-labeling pipeline that ensures both physical plausibility and temporal coherence; (2) We develop the OmniReason-Agent architecture, which integrates a sparse temporal memory module for persistent scene context modeling and an explanation generator that produces human-interpretable decision rationales, facilitated by our spatiotemporal knowledge distillation approach that effectively captures spatiotemporal causal reasoning patterns. Comprehensive experiments demonstrate state-of-the-art performance, where OmniReason-Agent achieves significant improvements in both open-loop planning tasks and visual question answering (VQA) benchmarks, while establishing new capabilities for interpretable, temporally-aware autonomous vehicles operating in complex, dynamic environments.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、自律運転における印象的な空間推論能力を示しているが、既存の手法は、現実の運転シナリオの本質的な時間次元を無視しながら、静的なシーン理解に主に焦点をあてている。
この限界に対処するため,ダイナミックな3D環境とその基盤となる意思決定プロセスを共同でモデル化することにより,堅牢な時空間推論を実現するOmniReasonフレームワークを提案する。
本研究は,(1)高密度な時空間アノテーションと自然言語説明を備えた2つの大規模視覚言語(VLA)データセットを導入し,物理的妥当性と時間的コヒーレンスを両立させる新たな幻覚緩和型自動ラベルパイプラインを構築した。(2)永続的な場面環境モデリングのためのスパース時間記憶モジュールと,時空間的因果的因果的因果的因果的因果的因果的因果的因果的パターンを効果的に捉えた説明生成装置を開発する。
総合的な実験では、OmniReason-Agentがオープンループ計画タスクと視覚的質問応答(VQA)ベンチマークの両方で大幅な改善を達成し、複雑な動的環境で動作している時間的に認識可能な自動運転車の解釈能力を確立した、最先端のパフォーマンスを実証している。
関連論文リスト
- Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment [2.9493863710375674]
VEMEは、未知の環境における複雑なタスクのためのディープラーニングモデルにおいて、人間のような推論を実現するための新しい方法である。
本フレームワークは,(1)オブジェクト,空間表現,視覚的意味論を時間的手がかりでブリッジするクロスランゲージアライメントフレームワーク,(2)タスク関連メモリリコールを可能にする動的で暗黙的な認知活性化世界埋め込み,(3)長期計画と効率的な探索のための指示に基づくナビゲーションと推論の3つの重要な構成要素を統合する。
論文 参考訳(メタデータ) (2025-08-29T19:47:25Z) - ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - Occupancy Learning with Spatiotemporal Memory [39.41175479685905]
本稿では,時間的整合性のある3次元占有特徴を効果的に学習するシーンレベルの占有表現学習フレームワークを提案する。
提案手法は,多フレーム入力間の時間的依存性を利用して,3次元占有予測タスクの時間的表現を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-06T17:59:52Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [16.588458512862932]
視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。
本稿では,モデルが視覚的に考えることを可能にするコテンポラル-T推論手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。