論文の概要: MoE3D: Mixture of Experts meets Multi-Modal 3D Understanding
- arxiv url: http://arxiv.org/abs/2511.22103v1
- Date: Thu, 27 Nov 2025 04:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.395658
- Title: MoE3D: Mixture of Experts meets Multi-Modal 3D Understanding
- Title(参考訳): MoE3D: マルチモーダルな3D理解を実現するエキスパートの混在
- Authors: Yu Li, Yuenan Hou, Yingmei Wei, Xinge Zhu, Yuexin Ma, Wenqi Shao, Yanming Guo,
- Abstract要約: MoE3Dは"エキスパート"ネットワークをマルチモーダル学習フレームワークに統合する。
Top-1ゲーティングは、専門家グループで1つの専門家プロセス機能を作成し、高い効率性を保証するために使用される。
私たちのMoE3Dは、4つの一般的な3D理解タスク間での競争性能を実現しています。
- 参考スコア(独自算出の注目度): 66.42289309244963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D understanding is a fundamental task in computer vision. Previous multi-modal fusion methods typically employ a single, dense fusion network, struggling to handle the significant heterogeneity and complexity across modalities, leading to suboptimal performance. In this paper, we propose MoE3D, which integrates Mixture of Experts (MoE) into the multi-modal learning framework. The core is that we deploy a set of specialized "expert" networks, each adept at processing a specific modality or a mode of cross-modal interaction. Specifically, the MoE-based transformer is designed to better utilize the complementary information hidden in the visual features. Information aggregation module is put forward to further enhance the fusion performance. Top-1 gating is employed to make one expert process features with expert groups, ensuring high efficiency. We further propose a progressive pre-training strategy to better leverage the semantic and 2D prior, thus equipping the network with good initialization. Our MoE3D achieves competitive performance across four prevalent 3D understanding tasks. Notably, our MoE3D surpasses the top-performing counterpart by 6.1 mIoU on Multi3DRefer.
- Abstract(参考訳): マルチモーダル3D理解はコンピュータビジョンの基本的な課題である。
従来のマルチモーダル核融合法は、通常、単一の高密度核融合ネットワークを使用し、モダリティ間の大きな不均一性と複雑性を扱うのに苦労し、最適以下の性能をもたらす。
本稿では,Mixture of Experts(MoE)をマルチモーダル学習フレームワークに統合したMoE3Dを提案する。
コアとなるのは、特殊な"専門家"ネットワークをデプロイし、それぞれが特定のモダリティやモーダル間相互作用のモードを処理できることです。
具体的には、MoEベースのトランスフォーマーは、視覚的特徴に隠された補完的な情報をよりよく利用するように設計されている。
融合性能をさらに高めるため、情報集約モジュールを前進させる。
Top-1ゲーティングは、専門家グループで1つの専門家プロセス機能を作成し、高い効率性を保証するために使用される。
さらに、セマンティクスと2D先行処理をよりよく活用するプログレッシブ事前学習戦略を提案し、ネットワークに優れた初期化を持たせる。
私たちのMoE3Dは、4つの一般的な3D理解タスク間での競争性能を実現しています。
特に、MoE3DはMulti3DReferで6.1mIoUを上回ります。
関連論文リスト
- MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts [49.21162433486564]
適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。
Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。
本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
論文 参考訳(メタデータ) (2025-05-27T12:03:30Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。