論文の概要: Harnessing the Power of Training-Free Techniques in Text-to-2D Generation for Text-to-3D Generation via Score Distillation Sampling
- arxiv url: http://arxiv.org/abs/2505.19868v1
- Date: Mon, 26 May 2025 11:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.401477
- Title: Harnessing the Power of Training-Free Techniques in Text-to-2D Generation for Text-to-3D Generation via Score Distillation Sampling
- Title(参考訳): テキスト・ツー・ツー・ツー・ジェネレーションにおける学習自由化の力の調和 : スコア蒸留によるテキスト・ツー・3D生成
- Authors: Junhong Lee, Seungwook Kim, Minsu Cho,
- Abstract要約: トレーニングフリー技術は、テキストから2D生成出力の品質を劇的に向上させることができる。
SDSは、事前訓練されたテキスト・ツー・2Dモデルのパワーを様々なタスクに活用するための一般的で効果的な手法である。
CFGのスケールは物体の大きさと表面の滑らかさのトレードオフを示し,FreeUのスケールはテクスチャの詳細と幾何学的誤差のトレードオフを示す。
- 参考スコア(独自算出の注目度): 43.18175423117849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show that simple training-free techniques can dramatically improve the quality of text-to-2D generation outputs, e.g. Classifier-Free Guidance (CFG) or FreeU. However, these training-free techniques have been underexplored in the lens of Score Distillation Sampling (SDS), which is a popular and effective technique to leverage the power of pretrained text-to-2D diffusion models for various tasks. In this paper, we aim to shed light on the effect such training-free techniques have on SDS, via a particular application of text-to-3D generation via 2D lifting. We present our findings, which show that varying the scales of CFG presents a trade-off between object size and surface smoothness, while varying the scales of FreeU presents a trade-off between texture details and geometric errors. Based on these findings, we provide insights into how we can effectively harness training-free techniques for SDS, via a strategic scaling of such techniques in a dynamic manner with respect to the timestep or optimization iteration step. We show that using our proposed scheme strikes a favorable balance between texture details and surface smoothness in text-to-3D generations, while preserving the size of the output and mitigating the occurrence of geometric defects.
- Abstract(参考訳): 近年の研究では、単純なトレーニングフリー技術は、テキストから2D生成出力、例えば、CFGやFreeUの質を劇的に向上させることができることが示されている。
しかし,SDS(Score Distillation Sampling, スコア蒸留サンプリング)のレンズでは, 予め訓練したテキスト・ツー・ツー・ディフュージョン・モデルのパワーを様々なタスクに活用する手法として, トレーニングフリーの手法が検討されている。
本稿では,2Dリフトによるテキスト・ツー・3D生成の特定の応用を通じて,そのようなトレーニング不要な手法がSDSに与える影響について光を当てることを目的としている。
本報告では,CFGのスケールは物体の大きさと表面の滑らかさのトレードオフを示し,FreeUのスケールはテクスチャの詳細と幾何学的誤差のトレードオフを示す。
これらの知見に基づいて、時間ステップや最適化イテレーションステップに関して、これらの手法を動的に戦略的にスケーリングすることで、SDSのトレーニング不要なテクニックを効果的に活用する方法についての洞察を提供する。
提案手法を用いることで,テクスチャの細部と表面の滑らかさのバランスを良好に保ちつつ,出力の大きさを保ち,幾何学的欠陥の発生を軽減できることを示す。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。
本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。
我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。
明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文 参考訳(メタデータ) (2024-10-11T17:26:00Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via
Denoised Score Distillation [89.09455618184239]
テキスト・ツー・3D世代における最近の進歩は画期的なものである。
そこで我々はPaintHumanというモデルを提案し,その課題を2つの側面から解決する。
奥行きマップを手引きとして,現実的なセマンティックなテクスチャの整合性を保証する。
論文 参考訳(メタデータ) (2023-10-14T00:37:16Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。