論文の概要: Collaborative Multi-Modal Coding for High-Quality 3D Generation
- arxiv url: http://arxiv.org/abs/2508.15228v1
- Date: Thu, 21 Aug 2025 04:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.181178
- Title: Collaborative Multi-Modal Coding for High-Quality 3D Generation
- Title(参考訳): 高品質3次元生成のための協調多モード符号化
- Authors: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu,
- Abstract要約: 基本的マルチモーダルから学習する最初のフィードフォワード3Dネイティブ生成モデルであるTriMMを提案する。
具体的には、TriMMはまず、モダリティ固有の機能を統合する、協調的なマルチモーダルコーディングを導入する。
また、マルチモーダル符号化の堅牢性と性能を高めるために、補助的な2Dおよび3D監視を導入する。
- 参考スコア(独自算出の注目度): 48.78065667043986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D content inherently encompasses multi-modal characteristics and can be projected into different modalities (e.g., RGB images, RGBD, and point clouds). Each modality exhibits distinct advantages in 3D asset modeling: RGB images contain vivid 3D textures, whereas point clouds define fine-grained 3D geometries. However, most existing 3D-native generative architectures either operate predominantly within single-modality paradigms-thus overlooking the complementary benefits of multi-modality data-or restrict themselves to 3D structures, thereby limiting the scope of available training datasets. To holistically harness multi-modalities for 3D modeling, we present TriMM, the first feed-forward 3D-native generative model that learns from basic multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM first introduces collaborative multi-modal coding, which integrates modality-specific features while preserving their unique representational strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to raise the robustness and performance of multi-modal coding. 3) Based on the embedded multi-modal code, TriMM employs a triplane latent diffusion model to generate 3D assets of superior quality, enhancing both the texture and the geometric detail. Extensive experiments on multiple well-known datasets demonstrate that TriMM, by effectively leveraging multi-modality, achieves competitive performance with models trained on large-scale datasets, despite utilizing a small amount of training data. Furthermore, we conduct additional experiments on recent RGB-D datasets, verifying the feasibility of incorporating other multi-modal datasets into 3D generation.
- Abstract(参考訳): 3Dコンテンツは本質的にマルチモーダルの特徴を含み、異なるモーダル(例えば、RGBイメージ、RGBD、ポイントクラウド)に投影することができる。
RGB画像は鮮やかな3Dテクスチャを含むが、点雲はきめ細かい3Dジオメトリを定義する。
しかし、既存の3Dネイティブな生成アーキテクチャのほとんどは、主に単一モダリティのパラダイム内で運用されている。
3Dモデリングのマルチモーダル性を活用するために,基本的マルチモーダル(例えば,RGB,RGBD,ポイントクラウド)から学習する最初のフィードフォワード3Dネイティブ生成モデルであるTriMMを提案する。
具体的には
1)TriMMは、まず、モダリティ固有の特徴を統合しながら、それぞれの表現強度を保ちながら、協調的なマルチモーダルコーディングを導入する。
2) マルチモーダル符号化の堅牢性と性能を高めるため, 補助的な2Dと3Dの監督が導入された。
3) 組込みマルチモーダル符号に基づき,TriMMは3次元の潜伏拡散モデルを用いて優れた品質の3次元資産を生成し,テクスチャと幾何学的ディテールの両面を向上する。
複数のよく知られたデータセットに対する大規模な実験は、TriMMがマルチモダリティを効果的に活用することで、少量のトレーニングデータを活用するにもかかわらず、大規模データセットでトレーニングされたモデルと競合する性能を達成することを示した。
さらに,最近のRGB-Dデータセットのさらなる実験を行い,他のマルチモーダルデータセットを3D生成に組み込むことの可能性を検証する。
関連論文リスト
- TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts [49.21162433486564]
適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。
Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。
本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
論文 参考訳(メタデータ) (2025-05-27T12:03:30Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - Zero-Shot Multi-Modal Artist-Controlled Retrieval and Exploration of 3D
Object Sets [4.2880616924515]
マルチモーダル入力から2Dスケッチ、画像、テキストを含む高品質な3Dアセット検索。
高いレベルの潜在機能へのブリッジを提供するために、CLIPを使用します。
これらの特徴は、一般的なデータ駆動アプローチに影響を与える芸術的制御の欠如に対処するために、マルチモーダリティ・フュージョン(multi-modality fusion)を実行するために使用します。
論文 参考訳(メタデータ) (2022-09-01T18:36:43Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。