論文の概要: Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts
- arxiv url: http://arxiv.org/abs/2505.21079v1
- Date: Tue, 27 May 2025 12:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.627677
- Title: Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts
- Title(参考訳): Uni3D-MoE: エキスパートの混在によるスケーラブルなマルチモーダル3Dシーン理解
- Authors: Yue Zhang, Yingzhao Jian, Hehe Fan, Yi Yang, Roger Zimmermann,
- Abstract要約: 適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。
Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。
本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
- 参考スコア(独自算出の注目度): 49.21162433486564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have demonstrated considerable potential for comprehensive 3D scene understanding. However, existing approaches typically utilize only one or a limited subset of 3D modalities, resulting in incomplete representations of 3D scenes and reduced interpretive accuracy. Furthermore, different types of queries inherently depend on distinct modalities, indicating that uniform processing of all modality tokens may fail to effectively capture query-specific context. To address these challenges, we propose Uni3D-MoE, a sparse Mixture-of-Experts (MoE)-based 3D MLLM designed to enable adaptive 3D multimodal fusion. Specifically, Uni3D-MoE integrates a comprehensive set of 3D modalities, including multi-view RGB and depth images, bird's-eye-view (BEV) maps, point clouds, and voxel representations. At its core, our framework employs a learnable routing mechanism within the sparse MoE-based large language model, dynamically selecting appropriate experts at the token level. Each expert specializes in processing multimodal tokens based on learned modality preferences, thus facilitating flexible collaboration tailored to diverse task-specific requirements. Extensive evaluations on standard 3D scene understanding benchmarks and specialized datasets demonstrate the efficacy of Uni3D-MoE.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は,包括的3次元シーン理解の可能性を示している。
しかし、既存のアプローチは一般的に3Dモダリティの1つか1つのサブセットしか利用せず、3Dシーンの不完全表現と解釈精度の低下をもたらす。
さらに、異なるタイプのクエリは本質的に異なるモダリティに依存しており、全てのモダリティトークンの均一な処理が、クエリ固有のコンテキストを効果的にキャプチャできない可能性があることを示している。
これらの課題に対処するため, 適応型3次元マルチモーダル融合を実現するために, スパースミクチャー・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。
具体的には、Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、およびボクセル表現を含む、包括的な3Dモダリティのセットを統合している。
このフレームワークの中核となるのは、希薄なMoEベースの大規模言語モデル内で学習可能なルーティング機構を採用し、トークンレベルで適切な専門家を動的に選択する。
各専門家は、学習されたモダリティの嗜好に基づいてマルチモーダルトークンを処理することを専門とし、多様なタスク固有の要件に合わせて柔軟なコラボレーションを促進する。
標準的な3Dシーン理解ベンチマークと特別なデータセットの大規模な評価は、Uni3D-MoEの有効性を示す。
関連論文リスト
- MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts [30.571811801090224]
M3DBenchと呼ばれる包括的3Dインストラクションフォローデータセットを導入する。
テキスト、画像、3Dオブジェクト、その他の視覚的プロンプトとインターリーブされた一般的なマルチモーダル命令をサポートする。
地域レベルでもシーンレベルでも多様な3Dタスクを統一し、現実世界の3D環境における様々な基本的な能力をカバーしている。
論文 参考訳(メタデータ) (2023-12-17T16:53:30Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。