論文の概要: DriveLM: Driving with Graph Visual Question Answering
- arxiv url: http://arxiv.org/abs/2312.14150v1
- Date: Thu, 21 Dec 2023 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 13:32:30.959150
- Title: DriveLM: Driving with Graph Visual Question Answering
- Title(参考訳): DriveLM: グラフビジュアル質問回答による運転
- Authors: Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang,
Chengen Xie, Ping Luo, Andreas Geiger, Hongyang Li
- Abstract要約: 本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
- 参考スコア(独自算出の注目度): 61.66819076674662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how vision-language models (VLMs) trained on web-scale data can be
integrated into end-to-end driving systems to boost generalization and enable
interactivity with human users. While recent approaches adapt VLMs to driving
via single-round visual question answering (VQA), human drivers reason about
decisions in multiple steps. Starting from the localization of key objects,
humans estimate object interactions before taking actions. The key insight is
that with our proposed task, Graph VQA, where we model graph-structured
reasoning through perception, prediction and planning question-answer pairs, we
obtain a suitable proxy task to mimic the human reasoning process. We
instantiate datasets (DriveLM-Data) built upon nuScenes and CARLA, and propose
a VLM-based baseline approach (DriveLM-Agent) for jointly performing Graph VQA
and end-to-end driving. The experiments demonstrate that Graph VQA provides a
simple, principled framework for reasoning about a driving scene, and
DriveLM-Data provides a challenging benchmark for this task. Our DriveLM-Agent
baseline performs end-to-end autonomous driving competitively in comparison to
state-of-the-art driving-specific architectures. Notably, its benefits are
pronounced when it is evaluated zero-shot on unseen objects or sensor
configurations. We hope this work can be the starting point to shed new light
on how to apply VLMs for autonomous driving. To facilitate future research, all
code, data, and models are available to the public.
- Abstract(参考訳): 本研究では,Webスケールデータを用いた視覚言語モデル(VLM)をエンド・ツー・エンドの運転システムに統合し,一般化を促進し,ユーザとの対話を可能にする方法について検討する。
最近のアプローチでは、VLMを1ラウンドの視覚的質問応答(VQA)による運転に適応しているが、人間のドライバーは複数のステップで意思決定を判断する。
主要なオブジェクトのローカライズから始まり、アクションを取る前にオブジェクトのインタラクションを見積もる。
提案課題であるグラフVQAでは,認識,予測,質問応答ペアの計画を通じてグラフ構造化推論をモデル化し,人間の推論過程を模倣する適切なプロキシタスクを得る。
nuScenesとCARLA上に構築されたデータセット(DriveLM-Data)をインスタンス化し、グラフVQAとエンドツーエンド駆動を併用するVLMベースのベースラインアプローチ(DriveLM-Agent)を提案する。
実験によると、graph vqaは運転シーンを推論するためのシンプルな原則付きフレームワークであり、drivelm-dataはこのタスクに対する挑戦的なベンチマークを提供する。
DriveLM-Agentベースラインは、最先端の駆動特化アーキテクチャと比較して、エンドツーエンドの自動運転を競合的に実行します。
特に、その利点は、目に見えないオブジェクトやセンサーの設定でゼロショットの評価を受けると発音される。
この取り組みが、自動運転にvlmを応用する方法に関する新たな光を当てる出発点になることを願っている。
将来の研究を促進するため、すべてのコード、データ、モデルが一般に公開されている。
関連論文リスト
- PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for
Autonomous Driving [40.20124828096732]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent
Vehicle in Complex Environments [72.04891523115535]
本稿では,オブジェクトの提案から潜在的意味関係を予測するグラフ畳み込みネットワークRSG-Netを提案する。
実験の結果、このネットワークはロードシーングラフデータセットに基づいてトレーニングされており、エゴ車両周辺のオブジェクト間の潜在的な意味関係を効率的に予測できることがわかった。
論文 参考訳(メタデータ) (2022-07-16T12:40:17Z) - Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping
and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。
このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文 参考訳(メタデータ) (2022-04-12T03:57:01Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset [7.151393153761375]
本稿では,短期記憶モデル(LSTM)を用いた自律走行モデルの動作を模倣する手法を提案する。
実験結果から,本モデルは動作予測においていくつかのモデルより優れることがわかった。
論文 参考訳(メタデータ) (2020-02-14T05:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。