論文の概要: V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.09980v2
- Date: Mon, 17 Feb 2025 19:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 10:42:31.726040
- Title: V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
- Title(参考訳): V2V-LLM:多モード大言語モデルを用いた車車間協調運転
- Authors: Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen,
- Abstract要約: 車両間通信(V2V)は提案されているが、検出と追跡に重点を置く傾向にある。
本稿では,Large Language Models (LLM) を協調自律運転に組み込む新しい問題設定を提案する。
また,LLMを用いて複数の連結自動運転車の知覚情報を融合するV2V-LLM法を提案する。
- 参考スコア(独自算出の注目度): 31.537045261401666
- License:
- Abstract: Current autonomous driving vehicles rely mainly on their individual sensors to understand surrounding scenes and plan for future trajectories, which can be unreliable when the sensors are malfunctioning or occluded. To address this problem, cooperative perception methods via vehicle-to-vehicle (V2V) communication have been proposed, but they have tended to focus on detection and tracking. How those approaches contribute to overall cooperative planning performance is still under-explored. Inspired by recent progress using Large Language Models (LLMs) to build autonomous driving systems, we propose a novel problem setting that integrates an LLM into cooperative autonomous driving, with the proposed Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset and benchmark. We also propose our baseline method Vehicle-to-Vehicle Large Language Model (V2V-LLM), which uses an LLM to fuse perception information from multiple connected autonomous vehicles (CAVs) and answer driving-related questions: grounding, notable object identification, and planning. Experimental results show that our proposed V2V-LLM can be a promising unified model architecture for performing various tasks in cooperative autonomous driving, and outperforms other baseline methods that use different fusion approaches. Our work also creates a new research direction that can improve the safety of future autonomous driving systems. Our project website: https://eddyhkchiu.github.io/v2vllm.github.io/ .
- Abstract(参考訳): 現在の自動運転車は、周囲のシーンを理解し、将来の軌道を計画するために、主に個々のセンサーに依存している。
この問題に対処するため、車両間通信(V2V)による協調認識手法が提案されているが、検出と追跡に注力する傾向にある。
これらのアプローチが全体的な協調計画のパフォーマンスにどのように貢献するかはまだ未検討である。
近年,Large Language Models (LLMs) による自律運転システム構築の進展に触発されて,LLMを協調運転に統合する新たな問題設定を提案し,V2V-QAデータセットとベンチマークを提案する。
また、LLMを用いて複数の連結自動運転車(CAV)からの認識情報を融合し、グラウンドリング、注目すべき物体識別、計画といった運転関連問題に答える、V2V-LLM(Vanture-to-Vehicle Large Language Model)を提案する。
実験結果から,提案するV2V-LLMは,協調運転における様々なタスクを行う上で有望な統一モデルアーキテクチャであり,異なる融合アプローチを用いた他のベースライン手法よりも優れることが示された。
私たちの研究は、将来の自動運転システムの安全性を向上させる新しい研究方向も作り出しています。
プロジェクトWebサイト: https://eddyhkchiu.github.io/v2vllm.github.io/
関連論文リスト
- Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。
本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文 参考訳(メタデータ) (2024-09-19T14:36:00Z) - SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。
本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。
我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-31T02:35:33Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving [11.36165122994834]
自律運転にドライバ注意(M2DA)を組み込んだ多モード核融合トランスを提案する。
ドライバーの注意を取り入れることで、自動運転車に人間のようなシーン理解能力を付与し、重要な領域を正確に特定し、安全性を確保する。
論文 参考訳(メタデータ) (2024-03-19T08:54:52Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Learning Driver Models for Automated Vehicles via Knowledge Sharing and
Personalization [2.07180164747172]
本稿では,自動車間の知識共有とパーソナライゼーションを通じて,自動走行車(AV)ドライバモデルを学習するためのフレームワークについて述べる。
インテリジェントな輸送システム、交通管理、車両間通信など、輸送工学にまたがるいくつかの応用を見出している。
論文 参考訳(メタデータ) (2023-08-31T17:18:15Z) - COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked
Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。
われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文 参考訳(メタデータ) (2022-05-04T17:55:12Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。