論文の概要: LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework
- arxiv url: http://arxiv.org/abs/2505.24245v1
- Date: Fri, 30 May 2025 06:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.795012
- Title: LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework
- Title(参考訳): LTM3D: 自己回帰拡散フレームワークを用いた条件付き3次元生成のためのブリッジングトークン空間
- Authors: Xin Kang, Zihan Zheng, Lei Chu, Yue Gao, Jiahao Li, Hao Pan, Xuejin Chen, Yan Lu,
- Abstract要約: LTM3Dは条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークである。
拡散と自己回帰(Auto-Regressive、AR)モデルの強みを統合する。
LTM3Dはマルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 40.17218893870908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LTM3D, a Latent Token space Modeling framework for conditional 3D shape generation that integrates the strengths of diffusion and auto-regressive (AR) models. While diffusion-based methods effectively model continuous latent spaces and AR models excel at capturing inter-token dependencies, combining these paradigms for 3D shape generation remains a challenge. To address this, LTM3D features a Conditional Distribution Modeling backbone, leveraging a masked autoencoder and a diffusion model to enhance token dependency learning. Additionally, we introduce Prefix Learning, which aligns condition tokens with shape latent tokens during generation, improving flexibility across modalities. We further propose a Latent Token Reconstruction module with Reconstruction-Guided Sampling to reduce uncertainty and enhance structural fidelity in generated shapes. Our approach operates in token space, enabling support for multiple 3D representations, including signed distance fields, point clouds, meshes, and 3D Gaussian Splatting. Extensive experiments on image- and text-conditioned shape generation tasks demonstrate that LTM3D outperforms existing methods in prompt fidelity and structural accuracy while offering a generalizable framework for multi-modal, multi-representation 3D generation.
- Abstract(参考訳): 拡散の強さと自己回帰(AR)モデルを統合する条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークであるLTM3Dを提案する。
拡散に基づく手法は、連続潜伏空間とARモデルを効果的にモデル化するが、3次元形状生成のためのこれらのパラダイムを組み合わせることは依然として困難である。
LTM3Dは、マスク付きオートエンコーダと拡散モデルを活用してトークン依存学習を強化する条件分散モデリングバックボーンを備えている。
さらに、生成中の条件トークンと遅延トークンの形状を整列するPrefix Learningを導入し、モダリティ間の柔軟性を改善した。
さらに,再生誘導サンプリングを用いた潜在トークン再構成モジュールを提案し,不確実性を低減し,生成した形状における構造忠実度を高める。
我々のアプローチはトークン空間で動作し、符号付き距離場、点雲、メッシュ、および3Dガウススプラッティングを含む複数の3次元表現をサポートする。
画像およびテキスト条件の形状生成タスクに関する大規模な実験により、LTM3Dは既存の手法よりも高速な忠実度と構造精度を向上し、マルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供することを示した。
関連論文リスト
- Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。
本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文 参考訳(メタデータ) (2024-12-31T21:23:08Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。