論文の概要: PDB-Eval: An Evaluation of Large Multimodal Models for Description and Explanation of Personalized Driving Behavior
- arxiv url: http://arxiv.org/abs/2507.18447v1
- Date: Thu, 24 Jul 2025 14:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.748671
- Title: PDB-Eval: An Evaluation of Large Multimodal Models for Description and Explanation of Personalized Driving Behavior
- Title(参考訳): PDB-Eval:パーソナライズドライビング行動の記述と説明のための大規模マルチモーダルモデルの評価
- Authors: Junda Wu, Jessica Echterhoff, Kyungtae Han, Amr Abdelraouf, Rohit Gupta, Julian McAuley,
- Abstract要約: 本稿では、パーソナライズドドライバ動作の詳細な理解のためのベンチマークであるPDB-Evalを紹介する。
私たちのベンチマークは、PDB-XとPDB-QAの2つの主要コンポーネントで構成されています。
詳細な説明や説明に関する微調整MLLMは、MLLMと駆動領域のギャップを効果的に埋めることができる。
- 参考スコア(独自算出の注目度): 21.53769783882118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding a driver's behavior and intentions is important for potential risk assessment and early accident prevention. Safety and driver assistance systems can be tailored to individual drivers' behavior, significantly enhancing their effectiveness. However, existing datasets are limited in describing and explaining general vehicle movements based on external visual evidence. This paper introduces a benchmark, PDB-Eval, for a detailed understanding of Personalized Driver Behavior, and aligning Large Multimodal Models (MLLMs) with driving comprehension and reasoning. Our benchmark consists of two main components, PDB-X and PDB-QA. PDB-X can evaluate MLLMs' understanding of temporal driving scenes. Our dataset is designed to find valid visual evidence from the external view to explain the driver's behavior from the internal view. To align MLLMs' reasoning abilities with driving tasks, we propose PDB-QA as a visual explanation question-answering task for MLLM instruction fine-tuning. As a generic learning task for generative models like MLLMs, PDB-QA can bridge the domain gap without harming MLLMs' generalizability. Our evaluation indicates that fine-tuning MLLMs on fine-grained descriptions and explanations can effectively bridge the gap between MLLMs and the driving domain, which improves zero-shot performance on question-answering tasks by up to 73.2%. We further evaluate the MLLMs fine-tuned on PDB-X in Brain4Cars' intention prediction and AIDE's recognition tasks. We observe up to 12.5% performance improvements on the turn intention prediction task in Brain4Cars, and consistent performance improvements up to 11.0% on all tasks in AIDE.
- Abstract(参考訳): 運転者の行動や意図を理解することは、潜在的なリスク評価と早期事故防止にとって重要である。
安全と運転支援システムは、個々の運転者の行動に合わせて調整され、その効果が著しく向上する。
しかし、既存のデータセットは、外的視覚的証拠に基づく一般的な車両の動きの説明と説明に限られている。
本稿では、PDB-Evalというベンチマークを導入し、パーソナライズされたドライバの振る舞いを詳細に理解し、MLLM(Large Multimodal Models)を駆動的理解と推論と整合させる。
私たちのベンチマークは、PDB-XとPDB-QAの2つの主要コンポーネントで構成されています。
PDB-XはMLLMの時間駆動シーンに対する理解を評価することができる。
私たちのデータセットは、ドライバーの振る舞いを内部ビューから説明するために、外部ビューから有効な視覚的証拠を見つけるように設計されています。
MLLMの推論能力と運転タスクとを合わせるために,MLLMの微調整のための視覚的説明質問応答タスクとしてPDB-QAを提案する。
MLLMのような生成モデルのための一般的な学習タスクとして、PDB-QAはMLLMの一般化性を損なうことなく、ドメインギャップをブリッジすることができる。
評価の結果,細粒度記述や説明に関する微調整MLLMは,MLLMと駆動領域のギャップを効果的に埋めることができ,質問応答タスクにおけるゼロショット性能を最大73.2%向上させることができることがわかった。
我々は、Brain4Carsの意図予測とAIDEの認識タスクにおいて、PDB-Xを微調整したMLLMをさらに評価した。
我々は、Brain4Carsのターン意図予測タスクにおける最大12.5%のパフォーマンス改善と、AIDEの全タスクにおける最大11.0%のパフォーマンス改善を観察する。
関連論文リスト
- Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - PADriver: Towards Personalized Autonomous Driving [27.96579880234604]
パーソナライズされた自律運転のための新しいクローズドループフレームワークPADriverを提案する。
マルチモーダル大言語モデル(MLLM)に基づいて構築されたPADriverは、ストリーミングフレームとパーソナライズされたテキストプロンプトを入力として取り込む。
本研究では,ハイウェイ-Envシミュレータに基づくPAD-Highwayというベンチマークを構築し,交通ルールの下での判定性能を総合的に評価する。
論文 参考訳(メタデータ) (2025-05-08T13:36:07Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Perceptual Motor Learning with Active Inference Framework for Robust Lateral Control [0.5437298646956507]
本稿では、高自動走行車(HAV)における横方向制御を強化するために、アクティブ推論(AIF)と統合された新しい知覚運動学習フレームワークを提案する。
PMLは知覚と行動のシームレスな統合を強調し、動的環境における効率的な意思決定を可能にする。
弊社のアプローチは、ディープラーニングをアクティブな推論原則と統合し、HAVが最小限のデータで車線維持を行い、異なる環境にまたがる広範な再訓練を行なわないようにする。
論文 参考訳(メタデータ) (2025-03-03T15:49:18Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - GenFollower: Enhancing Car-Following Prediction with Large Language Models [11.847589952558566]
我々は、これらの課題に対処するために、大規模言語モデル(LLM)を活用する新しいゼロショットプロンプトアプローチであるGenFollowerを提案する。
我々は,車追従動作を言語モデリング問題として再編成し,不均一な入力をLLMのための構造化プロンプトに統合する。
オープンデータセットの実験は、GenFollowerの優れたパフォーマンスと解釈可能な洞察を提供する能力を示している。
論文 参考訳(メタデータ) (2024-07-08T04:54:42Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。