論文の概要: Structured 3D Latents Are Surprisingly Powerful: Unleashing Generalizable Style with 2D Diffusion
- arxiv url: http://arxiv.org/abs/2605.04412v2
- Date: Thu, 07 May 2026 02:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:06.161818
- Title: Structured 3D Latents Are Surprisingly Powerful: Unleashing Generalizable Style with 2D Diffusion
- Title(参考訳): 構造を持つ3D潜伏剤は驚くほど強力:2D拡散で一般化可能なスタイルを解き放つ
- Authors: Yiran Qiao, Yiren Lu, Yunlai Zhou, Disheng Liu, Linlin Hou, Rui Yang, Yu Yin, Jing Ma,
- Abstract要約: 3Dアセット生成はゲームや仮想現実などの分野において重要な役割を担い、高忠実度3Dオブジェクトの迅速な合成を可能にする。
既存のアプローチは、通常、3D生成モデルのトレーニング分布内にあるか、または類似しているスタイルのイメージに依存している。
textbfDiLAST: 2次元拡散に基づく3次元スタイル転送のための遅延覚醒について紹介する。
- 参考スコア(独自算出の注目度): 16.012295855529935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D asset generation plays a pivotal role in fields such as gaming and virtual reality, enabling the rapid synthesis of high-fidelity 3D objects from a single or multiple images. Building on this capability, enabling style-controllable generation naturally emerges as an important and desirable direction. However, existing approaches typically rely on style images that lie within or are similar to the training distribution of 3D generation models. When presented with out-of-distribution (OOD) styles, their performance degrades significantly or even fails. To address this limitation, we introduce \textbf{DiLAST}: 2D Diffusion-based Latent Awakening for 3D Style Transfer. Specifically, we leverage a pretrained 2D diffusion model as a teacher to provide rich and generalizable style priors. By aligning rendered views with the target style under diffusion-based guidance, our method optimizes the structured 3D latent representations for stylization. We observe that this limitation stems not from insufficient model capacity, but from the underutilization of structured 3D latents, which are inherently expressive. Despite being trained on comparatively limited data, 3D generation models can leverage 2D diffusion guidance to steer denoising toward specific directions in latent space, thereby producing diverse, OOD styles. Extensive experiments across diverse data and multiple 3D generation backbones demonstrate the effectiveness and plug-and-play nature of our approach.
- Abstract(参考訳): 3Dアセット生成はゲームや仮想現実などの分野において重要な役割を担い、単一の画像や複数の画像から高忠実度3Dオブジェクトを迅速に合成することができる。
この能力に基づいて、スタイル制御可能な生成を可能にすることは、自然に重要かつ望ましい方向として現れる。
しかし、既存のアプローチは一般的に3D生成モデルのトレーニング分布内にあるか、あるいは類似しているスタイルのイメージに依存している。
アウト・オブ・ディストリビューション(OOD)スタイルで提示されると、パフォーマンスが大幅に低下するか、あるいは失敗する。
この制限に対処するために,3次元スタイル転送のための2次元拡散に基づく遅延覚醒法である \textbf{DiLAST} を導入する。
具体的には、教師として事前訓練された2次元拡散モデルを利用して、リッチで一般化可能なスタイルの事前情報を提供する。
そこで本手法では,3次元ラテント表現をスタイリゼーションのために最適化する。
この制限は、モデル容量の不足ではなく、本質的に表現力のある構造化された3D潜伏剤の未利用によるものである。
比較的限られたデータで訓練されているにもかかわらず、3D生成モデルは2次元拡散誘導を利用して、潜在空間内の特定の方向を認知し、多様なOODスタイルを生成することができる。
多様なデータと複数の3D生成バックボーンにわたる大規模な実験は、我々のアプローチの有効性とプラグアンドプレイの性質を実証している。
関連論文リスト
- ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation [53.049890350639366]
本研究では,3次元拡散モデルと2次元拡散モデルを統合した都市景観生成手法であるScenDiを提案する。
粗い3Dシーンを2Dビデオ拡散のガイダンスとして活用することにより、ScenDiは入力条件に基づいて所望のシーンを生成し、正確なカメラ軌道に順応する。
論文 参考訳(メタデータ) (2026-01-21T17:53:21Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。