Fugu-MT 論文翻訳(概要): DriveLM: Driving with Graph Visual Question Answering

論文の概要: DriveLM: Driving with Graph Visual Question Answering

arxiv url: http://arxiv.org/abs/2312.14150v2
Date: Wed, 17 Jul 2024 07:45:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 22:58:48.768864
Title: DriveLM: Driving with Graph Visual Question Answering
Title（参考訳）: DriveLM: グラフビジュアル質問回答による運転
Authors: Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang, Chengen Xie, Jens Beißwenger, Ping Luo, Andreas Geiger, Hongyang Li,
Abstract要約: 本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
参考スコア（独自算出の注目度）: 57.51930417790141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study how vision-language models (VLMs) trained on web-scale data can be integrated into end-to-end driving systems to boost generalization and enable interactivity with human users. While recent approaches adapt VLMs to driving via single-round visual question answering (VQA), human drivers reason about decisions in multiple steps. Starting from the localization of key objects, humans estimate object interactions before taking actions. The key insight is that with our proposed task, Graph VQA, where we model graph-structured reasoning through perception, prediction and planning question-answer pairs, we obtain a suitable proxy task to mimic the human reasoning process. We instantiate datasets (DriveLM-Data) built upon nuScenes and CARLA, and propose a VLM-based baseline approach (DriveLM-Agent) for jointly performing Graph VQA and end-to-end driving. The experiments demonstrate that Graph VQA provides a simple, principled framework for reasoning about a driving scene, and DriveLM-Data provides a challenging benchmark for this task. Our DriveLM-Agent baseline performs end-to-end autonomous driving competitively in comparison to state-of-the-art driving-specific architectures. Notably, its benefits are pronounced when it is evaluated zero-shot on unseen objects or sensor configurations. We hope this work can be the starting point to shed new light on how to apply VLMs for autonomous driving. To facilitate future research, all code, data, and models are available to the public.
Abstract（参考訳）: 本研究では,Webスケールデータに基づく視覚言語モデル(VLM)をエンド・ツー・エンドの運転システムに統合し,一般化を促進し,ユーザとの対話を可能にする方法について検討する。最近のアプローチでは、VLMを1ラウンドの視覚的質問応答(VQA)による運転に適応しているが、人間のドライバーは複数のステップで意思決定を判断する。キーオブジェクトのローカライゼーションから始めて、人間はアクションを取る前にオブジェクトのインタラクションを見積もる。提案課題であるグラフVQAでは,認識,予測,質問応答ペアの計画を通じてグラフ構造化推論をモデル化し,人間の推論過程を模倣する適切なプロキシタスクを得る。 nuScenesとCARLA上に構築されたデータセット(DriveLM-Data)をインスタンス化し、グラフVQAとエンドツーエンド駆動を併用するVLMベースのベースラインアプローチ(DriveLM-Agent)を提案する。実験では、Graph VQAがドライブシーンを推論するためのシンプルで原則化されたフレームワークを提供しており、DriveLM-Dataはこのタスクに挑戦的なベンチマークを提供している。 DriveLM-Agentベースラインは、最先端の駆動特化アーキテクチャと比較して、エンドツーエンドの自動運転を競合的に実行します。特に、その利点は、目に見えないオブジェクトやセンサーの設定でゼロショットの評価を受けたときに顕著である。この作業が、自動運転にVLMを適用する方法について、新たな光を当てる出発点になることを期待しています。将来の研究を促進するため、すべてのコード、データ、モデルが一般に公開されている。

関連論文リスト

ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳（メタデータ） (2025-03-13T17:59:01Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-10T17:27:32Z)
SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文参考訳（メタデータ） (2024-07-31T02:35:33Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。 LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。 OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
PreGSU-A Generalized Traffic Scene Understanding Model for Autonomous Driving based on Pre-trained Graph Attention Network [23.38434020807342]
交通要素間の相互作用の学習、抽出、表現として定義されたシーン理解は、ハイレベル自律運転(AD)における重要な課題の1つである。現在のシーン理解手法は主に、軌道予測やリスクレベル評価などの1つの具体的な単一タスクに焦点を当てている。グラフアテンションネットワークに基づく一般化された事前学習シーン理解モデルであるPreGSUを提案し、様々な下流タスクをサポートするために、交通シーンの普遍的相互作用と推論を学習する。
論文参考訳（メタデータ） (2024-04-16T03:34:35Z)
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文参考訳（メタデータ） (2024-03-28T21:18:33Z)
GraphAD: Interaction Scene Graph for End-to-end Autonomous Driving [16.245949174447574]
我々は,エゴ車両,道路エージェント,地図要素間の相互作用をモデル化するための統合手法として,インタラクションシーングラフ(ISG)を提案する。提案手法をnuScenesデータセット上で評価した。
論文参考訳（メタデータ） (2024-03-28T02:22:28Z)
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。 PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文参考訳（メタデータ） (2024-02-12T18:33:47Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文参考訳（メタデータ） (2023-07-14T04:21:05Z)
Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文参考訳（メタデータ） (2023-01-03T08:52:49Z)
Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文参考訳（メタデータ） (2022-04-12T03:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。