論文の概要: Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2310.01957v1
- Date: Tue, 3 Oct 2023 11:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:51:30.896490
- Title: Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving
- Title(参考訳): LLMによる運転: 説明可能な自律運転のためのオブジェクトレベルベクトルモダリティの融合
- Authors: Long Chen, Oleg Sinavski, Jan H\"unermann, Alice Karnsund, Andrew
James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
- Abstract要約: 大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 6.728693243652425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promise in the autonomous driving
sector, particularly in generalization and interpretability. We introduce a
unique object-level multimodal LLM architecture that merges vectorized numeric
modalities with a pre-trained LLM to improve context understanding in driving
situations. We also present a new dataset of 160k QA pairs derived from 10k
driving scenarios, paired with high quality control commands collected with RL
agent and question answer pairs generated by teacher LLM (GPT-3.5). A distinct
pretraining strategy is devised to align numeric vector modalities with static
LLM representations using vector captioning language data. We also introduce an
evaluation metric for Driving QA and demonstrate our LLM-driver's proficiency
in interpreting driving scenarios, answering questions, and decision-making.
Our findings highlight the potential of LLM-based driving action generation in
comparison to traditional behavioral cloning. We make our benchmark, datasets,
and model available for further exploration.
- Abstract(参考訳): 大規模言語モデル(llm)は自動運転分野、特に一般化と解釈性において有望である。
本稿では,ベクトル化数値モダリティと事前学習されたllmを融合した,ユニークなオブジェクトレベルのマルチモーダルllmアーキテクチャを提案する。
また,教師LLM(GPT-3.5)が生成する質問応答ペアとRLエージェントで収集した高品質な制御コマンドとを組み合わせ,10k運転シナリオから導出した160kQAペアのデータセットを提案する。
ベクターキャプタリング言語データを用いた静的LLM表現と数値ベクトルモダリティを一致させるための事前学習戦略が考案された。
また、運転QAの評価基準を導入し、運転シナリオの解釈、質問への回答、意思決定におけるLCMドライバの熟練度を示す。
本研究は, 従来の行動クローンと比較して, LLMによる運転行動生成の可能性を強調した。
ベンチマークやデータセット、モデルを使って、さらなる調査を行っています。
関連論文リスト
- DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving [13.115027801151484]
自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。
DriveMLLMには、880の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。
我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文 参考訳(メタデータ) (2024-06-05T17:25:46Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。