Fugu-MT 論文翻訳(概要): OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

論文の概要: OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

arxiv url: http://arxiv.org/abs/2504.04348v2
Date: Wed, 16 Apr 2025 15:00:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 06:49:10.938775
Title: OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning
Title（参考訳）: OmniDrive: 反現実的推論による自律運転のためのホロスティックなビジョンランゲージデータセット
Authors: Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez,
Abstract要約: 本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
参考スコア（独自算出の注目度）: 68.45848423501927
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advances in vision-language models (VLMs) have led to a growing interest in autonomous driving to leverage their strong reasoning capabilities. However, extending these capabilities from 2D to full 3D understanding is crucial for real-world applications. To address this challenge, we propose OmniDrive, a holistic vision-language dataset that aligns agent models with 3D driving tasks through counterfactual reasoning. This approach enhances decision-making by evaluating potential scenarios and their outcomes, similar to human drivers considering alternative actions. Our counterfactual-based synthetic data annotation process generates large-scale, high-quality datasets, providing denser supervision signals that bridge planning trajectories and language-based reasoning. Futher, we explore two advanced OmniDrive-Agent frameworks, namely Omni-L and Omni-Q, to assess the importance of vision-language alignment versus 3D perception, revealing critical insights into designing effective LLM-agents. Significant improvements on the DriveLM Q\&A benchmark and nuScenes open-loop planning demonstrate the effectiveness of our dataset and methods.
Abstract（参考訳）: 視覚言語モデル(VLM)の進歩は、その強力な推論能力を活用する自動運転への関心の高まりにつながっている。しかし、これらの機能を2Dから完全な3D理解に拡張することは、現実世界のアプリケーションにとって不可欠である。この課題に対処するために,エージェントモデルと3D駆動タスクを対応付ける総合的な視覚言語データセットであるOmniDriveを提案する。このアプローチは、潜在的なシナリオとその成果を評価することで意思決定を強化する。提案手法は, 大規模かつ高品質なデータセットを生成し, 計画軌道と言語に基づく推論を橋渡しする, より密集した監視信号を提供する。さらに,Omni-L と Omni-Q という2つの高度な OmniDrive-Agent フレームワークを探索し,視覚言語アライメントと3次元知覚の重要性を評価し,有効な LLM-エージェントを設計するための重要な洞察を明らかにする。 DriveLM Q\&AベンチマークとnuScenesオープンループ計画の重要な改善は、我々のデータセットとメソッドの有効性を示している。

関連論文リスト

Spatial-aware Vision Language Model for Autonomous Driving [16.149511148218497]
VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。 LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
論文参考訳（メタデータ） (2025-12-30T16:35:00Z)
ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文参考訳（メタデータ） (2025-08-15T12:06:55Z)
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)
V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving [2.3302708486956454]
本稿では,LVLMとLLM(Large Language Models)を統合することで,3次元シーン理解を向上させる新しいアプローチであるV3LMAを紹介する。 V3LMAは、オブジェクト検出やビデオ入力から生成されたテキスト記述を活用し、微調整を必要とせずに性能を大幅に向上させる。本稿では,複雑な交通シナリオにおける状況認識と意思決定を改善し,LingoQAベンチマークのスコア0.56を達成している。
論文参考訳（メタデータ） (2025-04-30T20:00:37Z)
RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文参考訳（メタデータ） (2025-03-18T03:25:57Z)
Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。 GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文参考訳（メタデータ） (2025-01-15T15:20:46Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-05-28T16:57:44Z)
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。 OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文参考訳（メタデータ） (2023-12-06T18:32:33Z)
An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。 3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文参考訳（メタデータ） (2023-11-18T01:21:38Z)
Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。私達のアプローチは人間の相互作用なしで完全に自動です。 VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T03:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。