論文の概要: CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception
- arxiv url: http://arxiv.org/abs/2509.17107v1
- Date: Sun, 21 Sep 2025 14:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.12161
- Title: CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception
- Title(参考訳): CoBEVMoE:協調知覚のための動的混合試験による異種性認識機能融合
- Authors: Lingzhao Kong, Jiacheng Lin, Siyu Li, Kai Luo, Zhiyong Li, Kailun Yang,
- Abstract要約: 本稿では,バードアイビュー(Bird's Eye View, BEV)空間で動作する新しい協調認識フレームワークを提案する。
エキスパート間の多様性を高め、融合表現の識別性を向上させるために、ダイナミックエキスパートメトリックロス(DEML)を導入する。
- 参考スコア(独自算出の注目度): 21.27356211403264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative perception aims to extend sensing coverage and improve perception accuracy by sharing information among multiple agents. However, due to differences in viewpoints and spatial positions, agents often acquire heterogeneous observations. Existing intermediate fusion methods primarily focus on aligning similar features, often overlooking the perceptual diversity among agents. To address this limitation, we propose CoBEVMoE, a novel collaborative perception framework that operates in the Bird's Eye View (BEV) space and incorporates a Dynamic Mixture-of-Experts (DMoE) architecture. In DMoE, each expert is dynamically generated based on the input features of a specific agent, enabling it to extract distinctive and reliable cues while attending to shared semantics. This design allows the fusion process to explicitly model both feature similarity and heterogeneity across agents. Furthermore, we introduce a Dynamic Expert Metric Loss (DEML) to enhance inter-expert diversity and improve the discriminability of the fused representation. Extensive experiments on the OPV2V and DAIR-V2X-C datasets demonstrate that CoBEVMoE achieves state-of-the-art performance. Specifically, it improves the IoU for Camera-based BEV segmentation by +1.5% on OPV2V and the AP@50 for LiDAR-based 3D object detection by +3.0% on DAIR-V2X-C, verifying the effectiveness of expert-based heterogeneous feature modeling in multi-agent collaborative perception. The source code will be made publicly available at https://github.com/godk0509/CoBEVMoE.
- Abstract(参考訳): 協調的知覚は、複数のエージェント間で情報を共有することにより、知覚範囲を拡大し、知覚精度を向上させることを目的としている。
しかし、視点や空間的位置の違いにより、エージェントは異質な観察を受けることが多い。
既存の中間融合法は主に類似した特徴の整合に重点を置いており、しばしばエージェント間の知覚的多様性を見下ろしている。
この制限に対処するため,我々は,バードアイビュー(Bird's Eye View, BEV)空間で動作する新しい協調認識フレームワークであるCoBEVMoEを提案し,DMoE(Dynamic Mixture-of-Experts)アーキテクチャを組み込んだ。
DMoEでは、各専門家は特定のエージェントの入力特徴に基づいて動的に生成され、共有セマンティクスに参加しながら、独特で信頼性の高い手がかりを抽出することができる。
この設計により、融合プロセスはエージェント間の類似性と異質性の両方を明示的にモデル化することができる。
さらに、専門家間の多様性を高め、融合表現の識別性を向上させるために、ダイナミックエキスパートメトリックロス(DEML)を導入する。
OPV2VとDAIR-V2X-Cデータセットの大規模な実験は、CoBEVMoEが最先端のパフォーマンスを達成することを示す。
具体的には、カメラベースのBEVセグメンテーションのためのIoUをOPV2Vで+1.5%改善し、LiDARベースの3Dオブジェクト検出のためのAP@50をDAIR-V2X-Cで+3.0%改善し、マルチエージェント協調認識におけるエキスパートベースの異種特徴モデリングの有効性を検証する。
ソースコードはhttps://github.com/godk0509/CoBEVMoE.comで公開されている。
関連論文リスト
- V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection [18.694510415777632]
V2X-DGPEは高精度で堅牢なV2X特徴レベルの協調認識フレームワークである。
提案手法は既存の手法より優れ、最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-04T19:28:55Z) - CooPre: Cooperative Pretraining for V2X Cooperative Perception [47.00472259100765]
CooPreは、V2X協調知覚のための自己教師型学習フラムワークである。
異種V2Xエージェント間の3D特徴に効果的に注意を向けることのできる,V2Xバードアイビュー(BEV)ガイドマスキング戦略を開発した。
CooPreはV2X-Realデータセットで4%のmAP改善を実現し、トレーニングデータの50%しか使用せず、ベースラインのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2024-08-20T23:39:26Z) - IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。
現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。
本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文 参考訳(メタデータ) (2024-07-13T11:38:15Z) - UVCPNet: A UAV-Vehicle Collaborative Perception Network for 3D Object Detection [11.60579201022641]
地上共同作業に特化して設計された枠組みを提案する。
研究のためにV2U-COOという仮想データセットを開発した。
第2に、ターゲット情報を調整するために、クロスドメイン・クロスアダプティブ(CDCA)モジュールを設計する。
第3に,より正確な深度推定結果を得るために,協調深度最適化(CDO)モジュールを導入する。
論文 参考訳(メタデータ) (2024-06-07T05:25:45Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。
本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。
本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文 参考訳(メタデータ) (2024-01-25T05:55:03Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。