論文の概要: Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning
- arxiv url: http://arxiv.org/abs/2502.14917v1
- Date: Wed, 19 Feb 2025 09:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:56.239092
- Title: Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning
- Title(参考訳): Sce2DriveX: シーン・ツー・ドライブ学習のための汎用MLLMフレームワーク
- Authors: Rui Zhao, Qirui Yuan, Jinyu Li, Haofeng Hu, Yun Li, Chengyuan Zheng, Fei Gao,
- Abstract要約: 我々は,人間ライクな駆動チェーン(CoT)推論フレームワークであるSce2DriveXを紹介した。
人間の運転に固有の暗黙の認知連鎖を再構築し、シーン理解、メタアクション推論、行動解釈分析、行動計画および制御をカバーしている。
CARLA Bench2Driveベンチマークでは、シーン理解からエンドツーエンドの駆動まで、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 24.511628941825116
- License:
- Abstract: End-to-end autonomous driving, which directly maps raw sensor inputs to low-level vehicle controls, is an important part of Embodied AI. Despite successes in applying Multimodal Large Language Models (MLLMs) for high-level traffic scene semantic understanding, it remains challenging to effectively translate these conceptual semantics understandings into low-level motion control commands and achieve generalization and consensus in cross-scene driving. We introduce Sce2DriveX, a human-like driving chain-of-thought (CoT) reasoning MLLM framework. Sce2DriveX utilizes multimodal joint learning from local scene videos and global BEV maps to deeply understand long-range spatiotemporal relationships and road topology, enhancing its comprehensive perception and reasoning capabilities in 3D dynamic/static scenes and achieving driving generalization across scenes. Building on this, it reconstructs the implicit cognitive chain inherent in human driving, covering scene understanding, meta-action reasoning, behavior interpretation analysis, motion planning and control, thereby further bridging the gap between autonomous driving and human thought processes. To elevate model performance, we have developed the first extensive Visual Question Answering (VQA) driving instruction dataset tailored for 3D spatial understanding and long-axis task reasoning. Extensive experiments demonstrate that Sce2DriveX achieves state-of-the-art performance from scene understanding to end-to-end driving, as well as robust generalization on the CARLA Bench2Drive benchmark.
- Abstract(参考訳): センサー入力を直接低レベルの車両制御にマッピングするエンドツーエンドの自動運転は、Embodied AIの重要な部分である。
マルチモーダル大言語モデル(MLLM)を高レベルの交通シーン意味理解に適用することは成功したが、これらの概念意味論的理解を低レベルのモーションコントロールコマンドに効果的に翻訳し、クロスシーン運転における一般化とコンセンサスを実現することは依然として困難である。
我々は,人間ライクな駆動チェーン(CoT)推論MLLMフレームワークであるSce2DriveXを紹介する。
Sce2DriveXは、ローカルシーンビデオとグローバルなBEVマップからのマルチモーダルジョイントラーニングを利用して、長距離時空間関係と道路トポロジーを深く理解し、3Dダイナミック/静的シーンにおける包括的認識と推論能力を高め、シーン間の一般化を実現する。
これに基づいて、人間の運転に固有の暗黙の認知連鎖を再構築し、シーン理解、メタアクション推論、行動解釈分析、行動計画と制御を網羅し、自律運転と人間の思考プロセスのギャップをさらに埋める。
モデル性能を向上させるために,3次元空間理解と長軸タスク推論に適した視覚質問応答(VQA)駆動型命令データセットを開発した。
大規模な実験により、Sce2DriveXはシーン理解からエンドツーエンドの駆動までの最先端のパフォーマンスを達成し、CARLA Bench2Driveベンチマークの堅牢な一般化を実現している。
関連論文リスト
- Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [2.0122032639916485]
我々は、セマンティックラベルの効果的な知識蒸留を、より小さなビジョンネットワークに解析する。
これは、複雑なシーンのセマンティックな表現として、計画と制御のための下流の意思決定に使用することができる。
論文 参考訳(メタデータ) (2025-01-12T01:31:07Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving [1.8434042562191815]
運転中の人間の推論を模倣する新しい自動運転フレームワークであるDualADを提案する。
DualADは、ルールベースのモーションプランナとルールベースのテキストエンコーダを備えた上位レイヤの2つのレイヤで構成されている。
論文 参考訳(メタデータ) (2024-09-26T16:58:04Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - Drive Like a Human: Rethinking Autonomous Driving with Large Language
Models [28.957124302293966]
本研究では,大規模言語モデル(LLM)を用いた運転環境の人間的理解の可能性を探る。
実験の結果,LLMは長い尾の症例を推論し,解決する優れた能力を示すことがわかった。
論文 参考訳(メタデータ) (2023-07-14T05:18:34Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Graph-based Topology Reasoning for Driving Scenes [102.35885039110057]
TopoNetは、従来の知覚タスクを超えてトラフィック知識を抽象化できる最初のエンドツーエンドフレームワークである。
TopoNetを,難解なシーン理解ベンチマークOpenLane-V2で評価した。
論文 参考訳(メタデータ) (2023-04-11T15:23:29Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。