論文の概要: HERMES: A Holistic End-to-End Risk-Aware Multimodal Embodied System with Vision-Language Models for Long-Tail Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.00993v1
- Date: Sun, 01 Feb 2026 03:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.510897
- Title: HERMES: A Holistic End-to-End Risk-Aware Multimodal Embodied System with Vision-Language Models for Long-Tail Autonomous Driving
- Title(参考訳): HERMES:長距離自律運転のためのビジョンランゲージモデルを用いたホロスティック・エンド・エンドリスク対応マルチモーダル・エンボディシステム
- Authors: Weizhe Tang, Junwei You, Jiaxi Liu, Zhaoyi Wang, Rui Gan, Zilin Huang, Feng Wei, Bin Ran,
- Abstract要約: HERMESは、全体的なリスクを意識したエンドツーエンドのマルチモーダル駆動フレームワークである。
軌跡計画に明確なロングテールリスクヒントを注入する。
Hermesは、ロングテール混合交通シナリオにおいて、代表的なエンドツーエンドとVLM駆動のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 20.243786413684948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving models increasingly benefit from large vision--language models for semantic understanding, yet ensuring safe and accurate operation under long-tail conditions remains challenging. These challenges are particularly prominent in long-tail mixed-traffic scenarios, where autonomous vehicles must interact with heterogeneous road users, including human-driven vehicles and vulnerable road users, under complex and uncertain conditions. This paper proposes HERMES, a holistic risk-aware end-to-end multimodal driving framework designed to inject explicit long-tail risk cues into trajectory planning. HERMES employs a foundation-model-assisted annotation pipeline to produce structured Long-Tail Scene Context and Long-Tail Planning Context, capturing hazard-centric cues together with maneuver intent and safety preference, and uses these signals to guide end-to-end planning. HERMES further introduces a Tri-Modal Driving Module that fuses multi-view perception, historical motion cues, and semantic guidance, ensuring risk-aware accurate trajectory planning under long-tail scenarios. Experiments on the real-world long-tail dataset demonstrate that HERMES consistently outperforms representative end-to-end and VLM-driven baselines under long-tail mixed-traffic scenarios. Ablation studies verify the complementary contributions of key components.
- Abstract(参考訳): エンド・ツー・エンドの自律運転モデルは、意味理解のための言語モデルという大きなビジョンの恩恵を受けつつも、長い尾の条件下での安全かつ正確な運転を保証することは困難である。
これらの課題は、自動運転車が複雑で不確実な条件下で、人間駆動の車両や脆弱な道路利用者を含む異種道路利用者と対話しなければならない、長距離混合交通シナリオにおいて特に顕著である。
本稿では,HERMESを提案する。HERMESは,トラジェクティブプランニングに明示的な長期リスクキューを注入するために設計された,包括的リスク対応のエンド・ツー・エンド・エンド・マルチモーダル駆動フレームワークである。
HERMESは、構造化されたロングテールシーンコンテキストとロングテールプランニングコンテキストを生成するために、ファンデーションモデル支援のアノテーションパイプラインを使用し、操作意図と安全性の優先とともにハザード中心のキューをキャプチャし、これらの信号を使用してエンドツーエンドプランニングをガイドする。
HERMESはさらに、多視点認識、歴史的動きの手がかり、セマンティックガイダンスを融合させ、長い尾のシナリオ下でのリスクを意識した正確な軌道計画を保証するトリモーダル駆動モジュールも導入している。
実世界のロングテールデータセットの実験では、HERMESはロングテール混合交通シナリオ下で、代表的なエンドツーエンドとVLM駆動のベースラインを一貫して上回っている。
アブレーション研究は、鍵成分の相補的な寄与を検証する。
関連論文リスト
- SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - World Model-Based End-to-End Scene Generation for Accident Anticipation in Autonomous Driving [1.8277374107085946]
本稿では,生成的拡張シーンと適応的時間的推論を組み合わせた包括的枠組みを提案する。
我々は、高解像度で統計的に一貫した運転シナリオを作成するために、ドメインインフォームドプロンプトによって世界モデルを利用するビデオ生成パイプラインを開発した。
並列に、強化グラフ畳み込みと拡張時間演算子を通して時間関係を符号化する動的予測モデルを構築する。
論文 参考訳(メタデータ) (2025-07-17T03:34:54Z) - SEAL: Vision-Language Model-Based Safe End-to-End Cooperative Autonomous Driving with Adaptive Long-Tail Modeling [13.81210267833274]
SEALは、長期シナリオ下での堅牢な協調自動運転のための適応型マルチモーダル学習を備えたビジョンベースのモデルベースフレームワークである。
SEALは、(i)基礎モデルを利用して現実的なロングテール条件を合成するプロンプト駆動のロングテールシナリオ生成と評価パイプライン、(ii)曖昧または破損した特徴を再検討するシナリオを用いてビジュアルストリームを変調するマルチシナリオ適応アダプティブアテンションモジュール、(iii)マルチタスクシナリオを意識したコントラクティブな学習目標、マルチモーダルアライメントを改善し、クロスシナリオ機能セパビリティを促進する。
論文 参考訳(メタデータ) (2025-06-26T06:42:03Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。
本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。
我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文 参考訳(メタデータ) (2024-11-25T16:38:17Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。