論文の概要: Taming Mode Collapse in Score Distillation for Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2401.00909v2
- Date: Fri, 29 Mar 2024 18:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:35:39.245670
- Title: Taming Mode Collapse in Score Distillation for Text-to-3D Generation
- Title(参考訳): テキスト・ツー・3次元生成のためのスコア蒸留におけるテーピングモードの崩壊
- Authors: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra,
- Abstract要約: Janus"アーティファクトはテキストから3D生成における問題であり、生成されたオブジェクトは複数のフロントフェイスで各ビューを偽装する。
エントロピースコア蒸留(Entropic Score Distillation, ESD)と呼ばれる新しい3Dスコア蒸留法を提案する。
恥ずかしいほど単純ではないが,我々はESDがJanusアーティファクトのスコア蒸留に有効であることを示す実験を行った。
- 参考スコア(独自算出の注目度): 70.32101198891465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing the entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
- Abstract(参考訳): テキストから3D生成におけるスコア蒸留の顕著な性能にもかかわらず、これらの技術は、複数の前面でそれぞれのビューを偽造する、"Janus"アーティファクト(英語版)としても知られる、ビューの不整合の問題に苦しむことで有名である。
経験的に有効な手法は、スコアデバイアスやエンジニアリングの促進を通じてこの問題にアプローチしてきたが、この問題を説明し、対処するためのより厳密な視点は、いまだ解明されていない。
本稿では,既存のスコア蒸留方式のテキスト・ツー・3D生成フレームワークが,個々の視点を個別に探す最大確率に縮退し,実際にJanusアーティファクトとして現れるモード崩壊問題に悩まされることを明らかにする。
モード崩壊を抑えるため,エントロピー項を対応する変分目的に再確立することにより,スコアの蒸留を改良し,描画画像の分布に適用する。
エントロピーの最大化は、生成された3D資産における異なる視点の多様性を促進し、それによってヤヌス問題を緩和する。
この新たな目的に基づいて,エントロピースコア蒸留(ESD)と呼ばれる3Dスコア蒸留の新しい更新規則を導出する。
変量点蒸留における分類器不要誘導法を応用すれば,ESDの簡易化と実装が可能であることを理論的に明らかにする。
恥ずかしいほど単純ではないが, 広範囲にわたる実験により, ESDがJanusアーティファクトのスコア蒸留に有効であることが示された。
関連論文リスト
- Connecting Consistency Distillation to Score Distillation for Text-to-3D Generation [32.52588154649761]
本研究では, 整合蒸留理論とスコア蒸留理論を結合させることにより, 現行のスコア蒸留法を解析した。
本稿では,これらの問題を緩和するための最適化フレームワークであるGCS( Guided Consistency Sampling)を3D Gaussian Splatting (3DGS)と統合して提案する。
本稿では,この問題を緩和するために,BEG方式を3DGSレンダリングに導入する。
論文 参考訳(メタデータ) (2024-07-18T15:25:41Z) - VividDreamer: Invariant Score Distillation For Hyper-Realistic Text-to-3D Generation [33.05759961083337]
Invariant Score Distillation (ISD) を提案する。
ISDは、スコア蒸留サンプリング(SDS)における過飽和および過平滑化問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-07-13T09:33:16Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity [70.32101198891465]
スコア蒸留における勾配推定は, 分散度が高いことが示唆された。
本稿では,Stin Score Distillation (SSD) と呼ばれる,スコア蒸留の分散を低減するための,より一般的な解を提案する。
我々はSteinDreamerがより安定した勾配更新により既存の方法よりも高速に収束できることを実証した。
論文 参考訳(メタデータ) (2023-12-31T23:04:25Z) - Text-to-3D with Classifier Score Distillation [80.14832887529259]
クラシファイアフリーガイダンスは最も必須ではなく、補助的なトリックだと考えられている。
我々はこの手法をスコア蒸留 (CSD) と名付け, 生成のための暗黙の分類モデルを用いて解釈できる。
我々は,形状生成,テクスチャ合成,形状編集など,テキストから3Dまでの各種タスクにおけるCSDの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T10:25:40Z) - Three Pillars improving Vision Foundation Model Distillation for Lidar [61.56521056618988]
蒸留における3つの柱の効果について検討した。3Dバックボーン,2Dバックボーン,および事前学習データセットである。
ScaLRと呼ばれるスケーラブルな蒸留法により、2Dと3Dのバックボーンのスケーリングと多様なデータセットの事前トレーニングにより、機能品質が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-10-26T15:54:43Z) - Debiasing Scores and Prompts of 2D Diffusion for View-consistent
Text-to-3D Generation [38.032010026146146]
ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。
最も顕著な問題の1つは、オブジェクトの最も標準的なビューが他のビューに現れるJanus問題である。
提案手法は, 生成した3次元オブジェクトの現実性を著しく低減し, 2次元拡散モデルへの忠実さと, オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-03-27T17:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。