論文の概要: DoReMi: A Domain-Representation Mixture Framework for Generalizable 3D Understanding
- arxiv url: http://arxiv.org/abs/2511.11232v1
- Date: Fri, 14 Nov 2025 12:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.584007
- Title: DoReMi: A Domain-Representation Mixture Framework for Generalizable 3D Understanding
- Title(参考訳): DoReMi: 汎用3D理解のためのドメイン表現混合フレームワーク
- Authors: Mingwei Xing, Xinliang Wang, Yifeng Shi,
- Abstract要約: DoReMiはMixture-of-Experts(MoE)フレームワークで、Domain-Aware Expertsブランチと統一されたRepresentationブランチを共同でモデル化する。
DoReMiはScanNet Valで80.1% mIoU、S3DISで77.2% mIoUを達成した。
- 参考スコア(独自算出の注目度): 10.259254902492978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization of 3D deep learning across multiple domains remains limited by the limited scale of existing datasets and the high heterogeneity of multi-source point clouds. Point clouds collected from different sensors (e.g., LiDAR scans and mesh-derived point clouds) exhibit substantial discrepancies in density and noise distribution, resulting in negative transfer during multi-domain fusion. Most existing approaches focus exclusively on either domain-aware or domain-general features, overlooking the potential synergy between them. To address this, we propose DoReMi (Domain-Representation Mixture), a Mixture-of-Experts (MoE) framework that jointly models Domain-aware Experts branch and a unified Representation branch to enable cooperative learning between specialized and generalizable knowledge. DoReMi dynamically activates domain-aware expert branch via Domain-Guided Spatial Routing (DSR) for context-aware expert selection and employs Entropy-Controlled Dynamic Allocation (EDA) for stable and efficient expert utilization, thereby adaptively modeling diverse domain distributions. Complemented by a frozen unified representation branch pretrained through robust multi-attribute self-supervised learning, DoReMi preserves cross-domain geometric and structural priors while maintaining global consistency. We evaluate DoReMi across multiple 3D understanding benchmarks. Notably, DoReMi achieves 80.1% mIoU on ScanNet Val and 77.2% mIoU on S3DIS, demonstrating competitive or superior performance compared to existing approaches, and showing strong potential as a foundation framework for future 3D understanding research. The code will be released soon.
- Abstract(参考訳): 複数の領域にわたる3Dディープラーニングの一般化は、既存のデータセットの限られたスケールと、マルチソースポイントクラウドの高均一性によって制限されている。
異なるセンサ(LiDARスキャンやメッシュ由来の点雲など)から収集された点雲は、密度とノイズ分布にかなりの差があり、多ドメイン融合時の負の移動をもたらす。
既存のアプローチのほとんどは、ドメイン意識またはドメイン一般の機能にのみ焦点を合わせ、それら間の潜在的なシナジーを見下ろしています。
そこで我々はDoReMi(Domain-Representation Mixture)フレームワークを提案する。DoReMi(Domain-Representation Mixture)はドメイン認識エキスパートブランチと統合表現ブランチを共同でモデル化し、専門知識と一般知識の協調学習を可能にする。
DoReMiは、ドメイン指向空間ルーティング(DSR)を介して動的にドメイン対応の専門家ブランチを動的に活性化し、安定かつ効率的な専門家利用のためにEntropy-Controlled Dynamic Allocation(EDA)を用いて、多様なドメイン分布を適応的にモデル化する。
DoReMiは、堅牢な多属性自己教師付き学習を通じて事前訓練された、凍結された統一表現ブランチによって補完され、グローバルな一貫性を維持しながら、クロスドメインな幾何学的および構造的事前を保存する。
複数の3次元理解ベンチマークでDoReMiを評価した。
特に、DoReMiはScanNet Valの80.1% mIoU、S3DISの77.2% mIoUを達成し、既存のアプローチと比較して競争力や優れた性能を示し、将来の3D理解研究の基礎となる可能性を示している。
コードはまもなくリリースされる。
関連論文リスト
- MSCN: Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles [1.7616042687330637]
マルチビュー構造畳み込みネットワーク(MSCN)はドメイン不変の認識を実現するために設計された新しいアーキテクチャである。
MSCNは、すべてのドメイン変更シナリオにおいて、最先端のクラウド分類方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-01-27T18:25:35Z) - Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。
マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。
CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文 参考訳(メタデータ) (2024-04-17T21:47:45Z) - Virtual Classification: Modulating Domain-Specific Knowledge for
Multidomain Crowd Counting [67.38137379297717]
マルチドメインのクラウドカウントは、複数の多様なデータセットの一般的なモデルを学ぶことを目的としている。
ディープネットワークは、ドメインバイアスとして知られるすべてのドメインではなく、支配的なドメインの分布をモデル化することを好む。
マルチドメイン群カウントにおけるドメインバイアス問題を処理するために,MDKNet(Modulating Domain-specific Knowledge Network)を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:49:04Z) - DI-V2X: Learning Domain-Invariant Representation for
Vehicle-Infrastructure Collaborative 3D Object Detection [78.09431523221458]
DI-V2Xは、新しい蒸留フレームワークを通じてドメイン不変表現を学習することを目的としている。
DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。
論文 参考訳(メタデータ) (2023-12-25T14:40:46Z) - Adapting Self-Supervised Representations to Multi-Domain Setups [47.03992469282679]
現在の最先端の自己教師型アプローチは、個々のドメインで訓練するときに有効であるが、目に見えないドメインでは限定的な一般化を示す。
本稿では,汎用的で軽量なドメイン・ディスタングル・モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-07T20:05:39Z) - Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval [55.122020263319634]
ビデオモーメント検索(VMR)は、与えられた言語クエリに従って、未編集のビデオからターゲットモーメントをローカライズすることを目的としている。
本稿では、新しいタスクであるクロスドメインVMRに焦点を当て、完全なアノテーション付きデータセットをひとつのドメインで利用できるが、関心のあるドメインは、注釈なしのデータセットのみを含む。
本稿では、アノテーションの知識をソースドメインからターゲットドメインに転送するマルチモーダル・クロスドメインアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T12:58:20Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。