論文の概要: A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.11400v1
- Date: Fri, 14 Mar 2025 13:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:58.392611
- Title: A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous Driving
- Title(参考訳): 自律運転における多モード大言語モデルのシナリオ理解のための能力駆動型評価フレームワーク
- Authors: Tin Stribor Sohn, Philipp Reis, Maximilian Dillitzer, Johannes Bach, Jason J. Corso, Eric Sax,
- Abstract要約: MLLM(Multimodal large language model)は、自動運転の可能性を秘めている。
自律運転システムへの統合は、概念実証アプリケーションにおいて有望な結果を示す。
本稿では,自律運転におけるMLLMの能力駆動評価のための総合的枠組みを提案する。
- 参考スコア(独自算出の注目度): 15.24721920935653
- License:
- Abstract: Multimodal large language models (MLLMs) hold the potential to enhance autonomous driving by combining domain-independent world knowledge with context-specific language guidance. Their integration into autonomous driving systems shows promising results in isolated proof-of-concept applications, while their performance is evaluated on selective singular aspects of perception, reasoning, or planning. To leverage their full potential a systematic framework for evaluating MLLMs in the context of autonomous driving is required. This paper proposes a holistic framework for a capability-driven evaluation of MLLMs in autonomous driving. The framework structures scenario understanding along the four core capability dimensions semantic, spatial, temporal, and physical. They are derived from the general requirements of autonomous driving systems, human driver cognition, and language-based reasoning. It further organises the domain into context layers, processing modalities, and downstream tasks such as language-based interaction and decision-making. To illustrate the framework's applicability, two exemplary traffic scenarios are analysed, grounding the proposed dimensions in realistic driving situations. The framework provides a foundation for the structured evaluation of MLLMs' potential for scenario understanding in autonomous driving.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、ドメインに依存しない世界知識と文脈固有の言語指導を組み合わせることで、自律運転を強化する可能性を秘めている。
自律運転システムへの統合は、概念実証アプリケーションにおいて有望な結果を示し、その性能は、知覚、推論、計画の選択的な特異な側面に基づいて評価される。
彼らの潜在能力をフル活用するためには、自律運転の文脈でMLLMを評価するための体系的な枠組みが必要である。
本稿では,自律運転におけるMLLMの能力駆動評価のための総合的枠組みを提案する。
フレームワークは、セマンティック、空間、時間、物理の4つのコア能力の次元に沿って理解するシナリオを構成する。
これらは、自律運転システム、人間の運転認識、言語に基づく推論の一般的な要件に由来する。
さらにドメインをコンテキスト層、処理モダリティ、言語ベースのインタラクションや意思決定といった下流タスクに整理する。
フレームワークの適用性を説明するために、2つの模範的なトラフィックシナリオを分析し、現実的な運転状況において提案された次元を根拠にしている。
このフレームワークは、自律運転におけるシナリオ理解のためのMLLMのポテンシャルの構造化された評価の基礎を提供する。
関連論文リスト
- PKRD-CoT: A Unified Chain-of-thought Prompting for Multi-Modal Large Language Models in Autonomous Driving [8.971981009717284]
本研究では、PKRD-CoTというゼロショットチェーン・オブ・ソートプロンプト設計を提案し、MLLMの自律運転システムへのシームレスな統合について検討する。
我々の設計では、MLLMは事前の経験なく問題に対処できるため、非構造自律運転環境における有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-02T23:08:38Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving [14.64475022650084]
大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。
算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおけるLLMの適応性について検討する。
論文 参考訳(メタデータ) (2024-02-21T08:09:05Z) - Evaluation of Large Language Models for Decision Making in Autonomous
Driving [4.271294502084542]
自律走行にLarge Language Models (LLMs)を使用する一つの戦略は、周囲のオブジェクトを LLM にテキストプロンプトとして入力することである。
このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。
本研究は、自律運転の文脈におけるLLMの2つの能力について定量的に評価した。
論文 参考訳(メタデータ) (2023-12-11T12:56:40Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Receive, Reason, and React: Drive as You Say with Large Language Models
in Autonomous Vehicles [13.102404404559428]
本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化する新しいフレームワークを提案する。
我々の研究は、自動運転と戦術的意思決定タスクのための環境の集合であるHighwayEnvの実験を含む。
また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。
論文 参考訳(メタデータ) (2023-10-12T04:56:01Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。