論文の概要: Automotive-ENV: Benchmarking Multimodal Agents in Vehicle Interface Systems
- arxiv url: http://arxiv.org/abs/2509.21143v2
- Date: Sat, 27 Sep 2025 15:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.631747
- Title: Automotive-ENV: Benchmarking Multimodal Agents in Vehicle Interface Systems
- Title(参考訳): Automotive-ENV:自動車インターフェースシステムにおけるマルチモーダルエージェントのベンチマーク
- Authors: Junfeng Yan, Biao Wu, Meng Fang, Ling Chen,
- Abstract要約: ドライバーの注意不足、厳格な安全要件、複雑な位置ベースのインタラクションパターンなどである。
本稿では,車載GUIに適した,最初の高忠実度ベンチマークおよびインタラクション環境であるAutomotive-ENVを紹介する。
位置, 環境条件, 地域運転規範に基づいて動的に行動を調整するために, GPSインフォームドコンテキストを統合した地理認識型マルチモーダルエージェントASURADAを提案する。
- 参考スコア(独自算出の注目度): 37.95018030319752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal agents have demonstrated strong performance in general GUI interactions, but their application in automotive systems has been largely unexplored. In-vehicle GUIs present distinct challenges: drivers' limited attention, strict safety requirements, and complex location-based interaction patterns. To address these challenges, we introduce Automotive-ENV, the first high-fidelity benchmark and interaction environment tailored for vehicle GUIs. This platform defines 185 parameterized tasks spanning explicit control, implicit intent understanding, and safety-aware tasks, and provides structured multimodal observations with precise programmatic checks for reproducible evaluation. Building on this benchmark, we propose ASURADA, a geo-aware multimodal agent that integrates GPS-informed context to dynamically adjust actions based on location, environmental conditions, and regional driving norms. Experiments show that geo-aware information significantly improves success on safety-aware tasks, highlighting the importance of location-based context in automotive environments. We will release Automotive-ENV, complete with all tasks and benchmarking tools, to further the development of safe and adaptive in-vehicle agents.
- Abstract(参考訳): マルチモーダルエージェントは、一般的なGUIインタラクションにおいて強い性能を示してきたが、自動車システムにおけるそれらの応用は、ほとんど探索されていない。
ドライバーの注意不足、厳格な安全要件、複雑な位置ベースのインタラクションパターンなどである。
これらの課題に対処するために,車載GUIに適した,最初の高忠実度ベンチマークとインタラクション環境であるAutomotive-ENVを紹介した。
このプラットフォームは、明示的な制御、暗黙的な意図理解、安全に配慮したタスクにまたがる185のパラメータ化タスクを定義し、再現可能な評価のための正確なプログラムチェックを備えた構造化されたマルチモーダル観察を提供する。
このベンチマークに基づいて,GPSによるコンテキストを統合した地理認識型マルチモーダルエージェントASURADAを提案し,位置,環境条件,地域運転規範に基づく動作の動的調整を行う。
実験の結果,ジオアウェア情報によって安全対応タスクの成功が著しく向上し,自動車環境における位置情報のコンテキストの重要性が強調された。
安全で適応的な車内エージェントの開発をさらに進めるため、すべてのタスクとベンチマークツールを備えたAutomotive-ENVをリリースする。
関連論文リスト
- VehicleWorld: A Highly Integrated Multi-Device Environment for Intelligent Vehicle Interaction [78.34534983766973]
VehicleWorldは、30のモジュール、250のAPI、680のプロパティを備えた、自動車ドメインのための最初の包括的な環境である。
本研究では,システム状態認識を明示的に維持し,目標条件を達成するために直接状態遷移を実装する新しい手法であるState-based Function Call (SFC)を提案する。
論文 参考訳(メタデータ) (2025-09-08T14:28:25Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey [20.7823289124196]
Bird's-Eye-View (BEV) の認識は、自動運転の基本的なパラダイムとなっている。
この調査は、安全クリティカルな観点からのBEVの認識に関する、初めての包括的なレビューを提供する。
論文 参考訳(メタデータ) (2025-08-11T02:40:46Z) - Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving [10.423977886893278]
本稿では,自律運転シナリオにおける視覚言語モデル(VLM)の安全性認知能力を評価するためのフレームワークであるSCD-Benchを紹介する。
データアノテーションのスケーラビリティ問題に対処するために,半自動ラベリングシステムであるADA(Autonomous Driving )を導入する。
運転環境におけるVLMと安全認知の連携という課題に対処するため,我々は,このタスクに適した最初の大規模データセットであるSCD-Trainingを構築した。
論文 参考訳(メタデータ) (2025-03-09T07:53:19Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for
Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。
AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。
2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文 参考訳(メタデータ) (2023-07-26T03:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。