論文の概要: UniMM-V2X: MoE-Enhanced Multi-Level Fusion for End-to-End Cooperative Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.09013v1
- Date: Thu, 13 Nov 2025 01:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.357072
- Title: UniMM-V2X: MoE-Enhanced Multi-Level Fusion for End-to-End Cooperative Autonomous Driving
- Title(参考訳): UniMM-V2X: エンドツーエンド協調運転のためのMoE強化多層核融合
- Authors: Ziyi Song, Chen Xia, Chenbing Wang, Haibao Yu, Sheng Zhou, Zhisheng Niu,
- Abstract要約: 自律運転のための新しいエンドツーエンドマルチエージェントフレームワークUniMM-V2Xを提案する。
我々のフレームワークの中核は、認識と予測協力を統一する多層融合戦略である。
評価精度は39.7%,予測誤差は7.2%,計画性能は33.2%向上した。
- 参考スコア(独自算出の注目度): 14.24203194426556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving holds transformative potential but remains fundamentally constrained by the limited perception and isolated decision-making with standalone intelligence. While recent multi-agent approaches introduce cooperation, they often focus merely on perception-level tasks, overlooking the alignment with downstream planning and control, or fall short in leveraging the full capacity of the recent emerging end-to-end autonomous driving. In this paper, we present UniMM-V2X, a novel end-to-end multi-agent framework that enables hierarchical cooperation across perception, prediction, and planning. At the core of our framework is a multi-level fusion strategy that unifies perception and prediction cooperation, allowing agents to share queries and reason cooperatively for consistent and safe decision-making. To adapt to diverse downstream tasks and further enhance the quality of multi-level fusion, we incorporate a Mixture-of-Experts (MoE) architecture to dynamically enhance the BEV representations. We further extend MoE into the decoder to better capture diverse motion patterns. Extensive experiments on the DAIR-V2X dataset demonstrate our approach achieves state-of-the-art (SOTA) performance with a 39.7% improvement in perception accuracy, a 7.2% reduction in prediction error, and a 33.2% improvement in planning performance compared with UniV2X, showcasing the strength of our MoE-enhanced multi-level cooperative paradigm.
- Abstract(参考訳): 自律運転は変革の可能性を秘めているが、独立した知性を持つ限定的な認識と孤立した意思決定によって根本から制約されている。
最近のマルチエージェントアプローチでは、単に認識レベルのタスクにのみ焦点を合わせ、下流の計画と制御との整合性を見落としている場合が多い。
本稿では,認識,予測,計画の階層的協調を可能にする,新しいエンドツーエンドマルチエージェントフレームワークUniMM-V2Xを提案する。
私たちのフレームワークの中核となるのは、認識と予測の協調を統一し、エージェントがクエリを共有し、一貫性と安全な意思決定のために合理化できるマルチレベル融合戦略です。
多様な下流タスクに適応し、マルチレベル融合の品質をさらに向上するために、BEV表現を動的に強化するためにMixture-of-Experts (MoE)アーキテクチャを組み込んだ。
さらにMoEをデコーダに拡張して、多様な動きパターンをよりよくキャプチャします。
DAIR-V2Xデータセットの大規模な実験では、39.7%の認識精度向上、7.2%の予測誤差、33.2%の計画性能向上、MoE強化マルチレベル協調パラダイムの強みを実証した。
関連論文リスト
- Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding [53.18433310890516]
視覚言語モデルは、伝達可能なセマンティック埋め込みを取得することでマルチモーダル表現学習を進める。
コントラスト学習のウォームアップ段階として機能する圧縮プレトレーニングフェーズであるCoMaを提案する。
論文 参考訳(メタデータ) (2025-11-11T17:23:02Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - CMP: Cooperative Motion Prediction with Multi-Agent Communication [21.60646440715162]
本稿では,協調動作予測の実現可能性と有効性について検討する。
提案手法であるCMPは,LiDAR信号をモデル入力とし,追跡と予測能力を向上させる。
特に、CMPは最強のベースラインに比べて平均予測誤差を12.3%削減する。
論文 参考訳(メタデータ) (2024-03-26T17:53:27Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。
提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T14:24:42Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。