論文の概要: RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented
In-Context Learning in Multi-Modal Large Language Model
- arxiv url: http://arxiv.org/abs/2402.10828v1
- Date: Fri, 16 Feb 2024 16:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:04:12.199472
- Title: RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented
In-Context Learning in Multi-Modal Large Language Model
- Title(参考訳): RAG-Driver:マルチモーダル大言語モデルにおける検索強化型インコンテキスト学習による汎用運転説明
- Authors: Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars
Kunze, Matthew Gadd
- Abstract要約: 提案するRAG-Driverは,高機能,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型多モード大言語モデルである。
RAG-Driverが運転動作の説明,正当化,制御信号の予測を行う上で,最先端の性能を発揮することを実証的に検証した。
- 参考スコア(独自算出の注目度): 23.375226325953587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots powered by 'blackbox' models need to provide human-understandable
explanations which we can trust. Hence, explainability plays a critical role in
trustworthy autonomous decision-making to foster transparency and acceptance
among end users, especially in complex autonomous driving. Recent advancements
in Multi-Modal Large Language models (MLLMs) have shown promising potential in
enhancing the explainability as a driving agent by producing control
predictions along with natural language explanations. However, severe data
scarcity due to expensive annotation costs and significant domain gaps between
different datasets makes the development of a robust and generalisable system
an extremely challenging task. Moreover, the prohibitively expensive training
requirements of MLLM and the unsolved problem of catastrophic forgetting
further limit their generalisability post-deployment. To address these
challenges, we present RAG-Driver, a novel retrieval-augmented multi-modal
large language model that leverages in-context learning for high-performance,
explainable, and generalisable autonomous driving. By grounding in retrieved
expert demonstration, we empirically validate that RAG-Driver achieves
state-of-the-art performance in producing driving action explanations,
justifications, and control signal prediction. More importantly, it exhibits
exceptional zero-shot generalisation capabilities to unseen environments
without further training endeavours.
- Abstract(参考訳): ブラックボックス」モデルで動くロボットは、信頼できる説明を提供する必要がある。
したがって、説明可能性は、特に複雑な自動運転において、エンドユーザ間の透明性と受容を促進するために、信頼できる自律的意思決定において重要な役割を果たす。
近年のMLLM(Multi-Modal Large Language Model)の進歩は、自然言語の説明とともに制御予測を生成することにより、駆動エージェントとしての説明可能性を高める可能性を示している。
しかし、高価なアノテーションコストと異なるデータセット間のドメインギャップによる厳しいデータ不足は、堅牢で汎用的なシステムの開発を極めて難しい課題にしている。
さらに,MLLMの厳格に高価なトレーニング要件と破滅的忘れの未解決問題により,展開後の一般性はさらに制限された。
これらの課題に対処するために,提案するRAG-Driverは,高能率,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型マルチモーダル大規模言語モデルである。
RAG-Driverが運転動作の説明,正当化,制御信号の予測を行う上で,最先端の性能を発揮することを実証的に検証した。
さらに重要なことは、さらなるトレーニングの努力なしに、見えない環境に例外的なゼロショット一般化能力を示すことだ。
関連論文リスト
- GenFollower: Enhancing Car-Following Prediction with Large Language Models [11.847589952558566]
我々は、これらの課題に対処するために、大規模言語モデル(LLM)を活用する新しいゼロショットプロンプトアプローチであるGenFollowerを提案する。
我々は,車追従動作を言語モデリング問題として再編成し,不均一な入力をLLMのための構造化プロンプトに統合する。
オープンデータセットの実験は、GenFollowerの優れたパフォーマンスと解釈可能な洞察を提供する能力を示している。
論文 参考訳(メタデータ) (2024-07-08T04:54:42Z) - Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving [14.64475022650084]
大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。
算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおけるLLMの適応性について検討する。
論文 参考訳(メタデータ) (2024-02-21T08:09:05Z) - Prospective Role of Foundation Models in Advancing Autonomous Vehicles [19.606191410333363]
大規模ファンデーションモデル(FM)は自然言語処理やコンピュータビジョンを含む多くの分野において顕著な成果を上げている。
本稿では,自動運転におけるFMの応用と今後の動向について述べる。
論文 参考訳(メタデータ) (2023-12-08T15:35:24Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。