論文の概要: Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2310.01957v2
- Date: Fri, 13 Oct 2023 21:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 22:46:04.624967
- Title: Driving with LLMs: Fusing Object-Level Vector Modality for Explainable
Autonomous Driving
- Title(参考訳): LLMによる運転: 説明可能な自律運転のためのオブジェクトレベルベクトルモダリティの融合
- Authors: Long Chen, Oleg Sinavski, Jan H\"unermann, Alice Karnsund, Andrew
James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
- Abstract要約: 大規模言語モデル(LLM)は、特に一般化と解釈可能性において、自動運転分野において有望であることを示している。
我々は,ベクトル化された数値を事前学習したLLMにマージして,運転状況における文脈理解を改善する,ユニークなオブジェクトレベルのマルチモーダルLLMアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 6.728693243652425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promise in the autonomous driving
sector, particularly in generalization and interpretability. We introduce a
unique object-level multimodal LLM architecture that merges vectorized numeric
modalities with a pre-trained LLM to improve context understanding in driving
situations. We also present a new dataset of 160k QA pairs derived from 10k
driving scenarios, paired with high quality control commands collected with RL
agent and question answer pairs generated by teacher LLM (GPT-3.5). A distinct
pretraining strategy is devised to align numeric vector modalities with static
LLM representations using vector captioning language data. We also introduce an
evaluation metric for Driving QA and demonstrate our LLM-driver's proficiency
in interpreting driving scenarios, answering questions, and decision-making.
Our findings highlight the potential of LLM-based driving action generation in
comparison to traditional behavioral cloning. We make our benchmark, datasets,
and model available for further exploration.
- Abstract(参考訳): 大規模言語モデル(llm)は自動運転分野、特に一般化と解釈性において有望である。
本稿では,ベクトル化数値モダリティと事前学習されたllmを融合した,ユニークなオブジェクトレベルのマルチモーダルllmアーキテクチャを提案する。
また,教師LLM(GPT-3.5)が生成する質問応答ペアとRLエージェントで収集した高品質な制御コマンドとを組み合わせ,10k運転シナリオから導出した160kQAペアのデータセットを提案する。
ベクターキャプタリング言語データを用いた静的LLM表現と数値ベクトルモダリティを一致させるための事前学習戦略が考案された。
また、運転QAの評価基準を導入し、運転シナリオの解釈、質問への回答、意思決定におけるLCMドライバの熟練度を示す。
本研究は, 従来の行動クローンと比較して, LLMによる運転行動生成の可能性を強調した。
ベンチマークやデータセット、モデルを使って、さらなる調査を行っています。
関連論文リスト
- Hybrid Reasoning Based on Large Language Models for Autonomous Car
Driving [15.711561029504406]
大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。
算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおけるLLMの適応性について検討する。
論文 参考訳(メタデータ) (2024-02-21T08:09:05Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - DriveLM: Driving with Graph Visual Question Answering [61.66819076674662]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Evaluation of Large Language Models for Decision Making in Autonomous
Driving [4.271294502084542]
自律走行にLarge Language Models (LLMs)を使用する一つの戦略は、周囲のオブジェクトを LLM にテキストプロンプトとして入力することである。
このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。
本研究は、自律運転の文脈におけるLLMの2つの能力について定量的に評価した。
論文 参考訳(メタデータ) (2023-12-11T12:56:40Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。