論文の概要: RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model
- arxiv url: http://arxiv.org/abs/2402.10828v2
- Date: Wed, 29 May 2024 14:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:21:18.017173
- Title: RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model
- Title(参考訳): RAG-Driver:マルチモーダル大言語モデルにおける検索強化型インコンテキスト学習による汎用運転説明
- Authors: Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd,
- Abstract要約: 説明責任は、信頼できる自律的な意思決定において重要な役割を果たす。
MLLM(Multi-Modal Large Language Model)の最近の進歩は、駆動エージェントとしての説明可能性を高める有望な可能性を示している。
提案するRAG-Driverは,高機能,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型多モード大言語モデルである。
- 参考スコア(独自算出の注目度): 22.25903116720301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We need to trust robots that use often opaque AI methods. They need to explain themselves to us, and we need to trust their explanation. In this regard, explainability plays a critical role in trustworthy autonomous decision-making to foster transparency and acceptance among end users, especially in complex autonomous driving. Recent advancements in Multi-Modal Large Language models (MLLMs) have shown promising potential in enhancing the explainability as a driving agent by producing control predictions along with natural language explanations. However, severe data scarcity due to expensive annotation costs and significant domain gaps between different datasets makes the development of a robust and generalisable system an extremely challenging task. Moreover, the prohibitively expensive training requirements of MLLM and the unsolved problem of catastrophic forgetting further limit their generalisability post-deployment. To address these challenges, we present RAG-Driver, a novel retrieval-augmented multi-modal large language model that leverages in-context learning for high-performance, explainable, and generalisable autonomous driving. By grounding in retrieved expert demonstration, we empirically validate that RAG-Driver achieves state-of-the-art performance in producing driving action explanations, justifications, and control signal prediction. More importantly, it exhibits exceptional zero-shot generalisation capabilities to unseen environments without further training endeavours.
- Abstract(参考訳): 私たちは、しばしば不透明なAIメソッドを使用するロボットを信頼する必要があります。
彼らは私たち自身を説明する必要があり、彼らの説明を信頼する必要があります。
この点において、説明責任は、特に複雑な自律運転において、エンドユーザー間の透明性と受け入れを促進するために、信頼できる自律的意思決定において重要な役割を担っている。
近年のMLLM(Multi-Modal Large Language Model)の進歩は、自然言語の説明とともに制御予測を生成することにより、駆動エージェントとしての説明可能性を高める有望な可能性を示している。
しかし、高価なアノテーションコストと異なるデータセット間のドメインギャップによる厳しいデータ不足は、堅牢で汎用的なシステムの開発を極めて難しい課題にしている。
さらに,MLLMの厳格に高価なトレーニング要件と破滅的忘れの未解決問題により,展開後の一般性はさらに制限された。
これらの課題に対処するために,提案するRAG-Driverは,高能率,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型マルチモーダルな大規模言語モデルである。
RAG-Driverが運転動作の説明,正当化,制御信号の予測を行う上で,最先端の性能を発揮することを実証的に検証した。
さらに重要なのは、さらなる訓練をすることなく、目に見えない環境に例外的なゼロショットの一般化能力を示すことだ。
関連論文リスト
- GenFollower: Enhancing Car-Following Prediction with Large Language Models [11.847589952558566]
我々は、これらの課題に対処するために、大規模言語モデル(LLM)を活用する新しいゼロショットプロンプトアプローチであるGenFollowerを提案する。
我々は,車追従動作を言語モデリング問題として再編成し,不均一な入力をLLMのための構造化プロンプトに統合する。
オープンデータセットの実験は、GenFollowerの優れたパフォーマンスと解釈可能な洞察を提供する能力を示している。
論文 参考訳(メタデータ) (2024-07-08T04:54:42Z) - Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving [14.64475022650084]
大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。
算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおけるLLMの適応性について検討する。
論文 参考訳(メタデータ) (2024-02-21T08:09:05Z) - Prospective Role of Foundation Models in Advancing Autonomous Vehicles [19.606191410333363]
大規模ファンデーションモデル(FM)は自然言語処理やコンピュータビジョンを含む多くの分野において顕著な成果を上げている。
本稿では,自動運転におけるFMの応用と今後の動向について述べる。
論文 参考訳(メタデータ) (2023-12-08T15:35:24Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。