論文の概要: E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.04733v1
- Date: Thu, 04 Dec 2025 12:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.157442
- Title: E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving
- Title(参考訳): E3AD:人間中心のエンド・ツー・エンド自動運転のための感情認識型ビジョンランゲージ・アクションモデル
- Authors: Yihong Tang, Haicheng Liao, Tong Nie, Junlin He, Ao Qu, Kehua Chen, Wei Ma, Zhenning Li, Lijun Sun, Chengzhong Xu,
- Abstract要約: 自動運転車は、自由形式の自然言語コマンドを解釈し、感情を推測し、物理的に実現可能な軌道を計画しなければならない。
感情を意識したVLAフレームワークであるE3ADを提案する。
モダリティ事前学習と嗜好に基づくアライメントを組み合わせた一貫性指向のトレーニングスキームは、感情意図と運転行動の一貫性をさらに強化する。
- 参考スコア(独自算出の注目度): 56.50212124887739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving (AD) systems increasingly adopt vision-language-action (VLA) models, yet they typically ignore the passenger's emotional state, which is central to comfort and AD acceptance. We introduce Open-Domain End-to-End (OD-E2E) autonomous driving, where an autonomous vehicle (AV) must interpret free-form natural-language commands, infer the emotion, and plan a physically feasible trajectory. We propose E3AD, an emotion-aware VLA framework that augments semantic understanding with two cognitively inspired components: a continuous Valenc-Arousal-Dominance (VAD) emotion model that captures tone and urgency from language, and a dual-pathway spatial reasoning module that fuses egocentric and allocentric views for human-like spatial cognition. A consistency-oriented training scheme, combining modality pretraining with preference-based alignment, further enforces coherence between emotional intent and driving actions. Across real-world datasets, E3AD improves visual grounding and waypoint planning and achieves state-of-the-art (SOTA) VAD correlation for emotion estimation. These results show that injecting emotion into VLA-style driving yields more human-aligned grounding, planning, and human-centric feedback.
- Abstract(参考訳): エンド・ツー・エンドの自律運転(AD)システムは、視覚言語アクション(VLA)モデルを採用する傾向にあるが、彼らは通常、快適とAD受け入れの中心である乗客の感情状態を無視している。
自動運転車は、自由形式の自然言語コマンドを解釈し、感情を推測し、物理的に実現可能な軌道を計画しなければならない。
本研究では,言語から声調や緊急性を捉えた連続的Valenc-Arousal-Dominance(VAD)感情モデルと,人間のような空間認知に対する自我中心的・同心的な視点を融合した双方向空間推論モジュールであるE3ADを提案する。
モダリティ事前学習と嗜好に基づくアライメントを組み合わせた一貫性指向のトレーニングスキームは、感情意図と運転行動の一貫性をさらに強化する。
実世界のデータセット全体にわたって、E3ADは視覚的グラウンドニングとウェイポイント計画を改善し、感情推定のための最先端(SOTA)VAD相関を達成する。
これらの結果は、VLAスタイルの運転に感情を注入すると、より人間中心の着地、計画、人間中心のフィードバックが得られることを示している。
関連論文リスト
- Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - StyleDrive: Towards Driving-Style Aware Benchmarking of End-To-End Autonomous Driving [7.525510086747996]
エンドツーエンド自動運転(E2EAD)の文脈では、パーソナライゼーションはほとんど見過ごされている。
パーソナライズされたE2EAD用に明示的にキュレートされた,最初の大規模実世界のデータセットを紹介する。
パーソナライズされたE2EADモデルを体系的に評価するための最初の標準ベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:48:38Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving [3.8737986316149775]
我々はInsightDriveと呼ばれる新しいエンドツーエンドの自動運転手法を提案する。
言語誘導されたシーン表現によって知覚を整理する。
実験では、InsightDriveはエンドツーエンドの自動運転において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-17T10:52:32Z) - Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning [24.511628941825116]
我々は,人間ライクな駆動チェーン(CoT)推論フレームワークであるSce2DriveXを紹介した。
人間の運転に固有の暗黙の認知連鎖を再構築し、シーン理解、メタアクション推論、行動解釈分析、行動計画および制御をカバーしている。
CARLA Bench2Driveベンチマークでは、シーン理解からエンドツーエンドの駆動まで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-19T09:50:44Z) - From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models [16.350658746140788]
大規模言語モデル(LLM)は、一貫性があり、制御可能で、文脈的に適切な方法で感情を表現するのに苦労する。
感情ベクトル(EV)に基づく制御可能な感情生成フレームワークを提案する。
本手法は、追加のトレーニングやアーキテクチャの変更なしに、感情のトーンを微調整し、連続的に調整することができる。
論文 参考訳(メタデータ) (2025-02-06T13:38:57Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Commonsense Visual Sensemaking for Autonomous Driving: On Generalised
Neurosymbolic Online Abduction Integrating Vision and Semantics [9.359018642178917]
自律運転の背景において,視覚認識のためのシステム統合視覚とセマンティックスソリューションの必要性と可能性を示す。
解集合プログラミング(ASP)を用いたオンライン視覚感覚形成のための一般的な神経シンボリック手法を体系的に形式化し、完全に実装する。
論文 参考訳(メタデータ) (2020-12-28T16:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。