論文の概要: PnP-U3D: Plug-and-Play 3D Framework Bridging Autoregression and Diffusion for Unified Understanding and Generation
- arxiv url: http://arxiv.org/abs/2602.03533v1
- Date: Tue, 03 Feb 2026 13:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.478975
- Title: PnP-U3D: Plug-and-Play 3D Framework Bridging Autoregression and Diffusion for Unified Understanding and Generation
- Title(参考訳): PnP-U3D: 統一理解と生成のための自己回帰と拡散を橋渡しするプラグアンドプレイ3Dフレームワーク
- Authors: Yongwei Chen, Tianyi Wei, Yushi Lan, Zhaoyang Lyu, Shangchen Zhou, Xudong Xu, Xingang Pan,
- Abstract要約: 本稿では,自己回帰と拡散を組み合わせた3次元理解・生成のための最初の統合フレームワークを提案する。
軽量トランスは、大きな言語モデルの特徴空間と3次元拡散モデルの条件空間を橋渡しする。
本フレームワークは,多種多様な3次元理解および生成ベンチマークにおける最先端性能を実現するとともに,3次元編集タスクにも優れる。
- 参考スコア(独自算出の注目度): 45.72473673810981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of large multimodal models has inspired efforts toward unified frameworks that couple understanding and generation. While such paradigms have shown remarkable success in 2D, extending them to 3D remains largely underexplored. Existing attempts to unify 3D tasks under a single autoregressive (AR) paradigm lead to significant performance degradation due to forced signal quantization and prohibitive training cost. Our key insight is that the essential challenge lies not in enforcing a unified autoregressive paradigm, but in enabling effective information interaction between generation and understanding while minimally compromising their inherent capabilities and leveraging pretrained models to reduce training cost. Guided by this perspective, we present the first unified framework for 3D understanding and generation that combines autoregression with diffusion. Specifically, we adopt an autoregressive next-token prediction paradigm for 3D understanding, and a continuous diffusion paradigm for 3D generation. A lightweight transformer bridges the feature space of large language models and the conditional space of 3D diffusion models, enabling effective cross-modal information exchange while preserving the priors learned by standalone models. Extensive experiments demonstrate that our framework achieves state-of-the-art performance across diverse 3D understanding and generation benchmarks, while also excelling in 3D editing tasks. These results highlight the potential of unified AR+diffusion models as a promising direction for building more general-purpose 3D intelligence.
- Abstract(参考訳): 大規模なマルチモーダルモデルの急速な進歩は、理解と生成を兼ね備えた統合フレームワークへの取り組みにインスピレーションを与えている。
このようなパラダイムは2Dで顕著に成功したが、これらを3Dに拡張する試みはいまだに過小評価されている。
1つの自己回帰的(AR)パラダイムの下で3Dタスクを統一しようとする既存の試みは、強制的な信号量子化と禁制的なトレーニングコストによる大幅なパフォーマンス低下を招いた。
我々の重要な洞察は、重要な課題は、統一された自己回帰パラダイムを強制することではなく、生成と理解の間の効果的な情報相互作用を可能にすることであり、その固有の能力を最小限に妥協させ、トレーニングコストを削減するために事前訓練されたモデルを活用することである。
この観点から、自己回帰と拡散を組み合わせた3次元理解と生成のための最初の統一された枠組みを提示する。
具体的には,3次元理解のための自己回帰的次世代予測パラダイムと,3次元生成のための連続拡散パラダイムを採用する。
軽量トランスフォーマーは,大規模言語モデルの特徴空間と3次元拡散モデルの条件空間をブリッジし,スタンドアロンモデルで学習した先行情報を保存しつつ,効果的な相互モーダル情報交換を実現する。
大規模な実験により,本フレームワークは多種多様な3次元理解および生成ベンチマークにまたがる最先端性能を実現するとともに,3次元編集タスクにも優れることを示した。
これらの結果は、より汎用的な3Dインテリジェンスを構築するための有望な方向として、統合AR+拡散モデルの可能性を強調している。
関連論文リスト
- LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework [40.17218893870908]
LTM3Dは条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークである。
拡散と自己回帰(Auto-Regressive、AR)モデルの強みを統合する。
LTM3Dはマルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-30T06:08:45Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - Diffusion Models in 3D Vision: A Survey [18.805222552728225]
3Dビジョンはコンピュータビジョンにおいて重要な分野となり、自律運転、ロボット工学、拡張現実、医療画像などの幅広い応用に力を入れている。
本稿では,3次元オブジェクト生成,形状完備化,点雲再構成,シーン構築など,三次元視覚タスクに拡散モデルを用いる最先端の手法について概説する。
計算効率の向上,マルチモーダル融合の強化,大規模事前学習による3次元タスクの一般化の促進など,潜在的なソリューションについて議論する。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。