論文の概要: Taming Mode Collapse in Score Distillation for Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2401.00909v1
- Date: Sun, 31 Dec 2023 22:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:23:29.426783
- Title: Taming Mode Collapse in Score Distillation for Text-to-3D Generation
- Title(参考訳): テキストから3次元生成のためのスコア蒸留におけるタンピングモード崩壊
- Authors: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest
Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
- Abstract要約: エントロピックスコア蒸留(Entropic Score Distillation, ESD)は, スコア蒸留におけるJanusアーティファクトの有効処理である。
エントロピースコア蒸留(Entropic Score Distillation, ESD)と呼ばれる新しい3Dスコア蒸留法を提案する。
恥ずかしいほど単純ではないが, 広範囲にわたる実験により, ESDがJanusアーティファクトのスコア蒸留に有効であることが示された。
- 参考スコア(独自算出の注目度): 72.0399904371326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable performance of score distillation in text-to-3D
generation, such techniques notoriously suffer from view inconsistency issues,
also known as "Janus" artifact, where the generated objects fake each view with
multiple front faces. Although empirically effective methods have approached
this problem via score debiasing or prompt engineering, a more rigorous
perspective to explain and tackle this problem remains elusive. In this paper,
we reveal that the existing score distillation-based text-to-3D generation
frameworks degenerate to maximal likelihood seeking on each view independently
and thus suffer from the mode collapse problem, manifesting as the Janus
artifact in practice. To tame mode collapse, we improve score distillation by
re-establishing in entropy term in the corresponding variational objective,
which is applied to the distribution of rendered images. Maximizing the entropy
encourages diversity among different views in generated 3D assets, thereby
mitigating the Janus problem. Based on this new objective, we derive a new
update rule for 3D score distillation, dubbed Entropic Score Distillation
(ESD). We theoretically reveal that ESD can be simplified and implemented by
just adopting the classifier-free guidance trick upon variational score
distillation. Although embarrassingly straightforward, our extensive
experiments successfully demonstrate that ESD can be an effective treatment for
Janus artifacts in score distillation.
- Abstract(参考訳): テキストから3d生成におけるスコア蒸留の顕著な性能にもかかわらず、このような技法は「ジャヌス」アーティファクトとして知られるビューの不一貫性の問題に苦しめられ、生成されたオブジェクトは複数の前面でそれぞれのビューを偽装する。
経験的に効果的な手法は、スコアデバイアスやプロンプトエンジニアリングを通じてこの問題にアプローチしてきたが、この問題を説明し対処するためのより厳格な視点はいまだに解明されていない。
本稿では,既存のスコア蒸留方式のテキスト・ツー・3D生成フレームワークが,個々の視点を個別に探す最大確率に縮退し,実際にJanusアーティファクトとして現れるモード崩壊問題に悩まされることを明らかにする。
モード崩壊を抑えるため,エントロピー項を対応する変分目的に再確立することにより,スコアの蒸留を改良し,描画画像の分布に適用する。
エントロピーの最大化は、生成された3Dアセットにおける異なる視点の多様性を促進する。
この新たな目的に基づいて,エントロピースコア蒸留(ESD)と呼ばれる3Dスコア蒸留の新しい更新規則を導出する。
変量点蒸留における分類器不要誘導法を応用すれば,ESDの簡易化と実装が可能であることを理論的に明らかにする。
恥ずかしいほど単純ではないが, 広範囲にわたる実験により, ESDがJanusアーティファクトのスコア蒸留に有効であることが示された。
関連論文リスト
- A Quantitative Evaluation of Score Distillation Sampling Based
Text-to-3D [54.78611187426158]
本研究では,SDS手法の故障事例を定量的に分析し,人間の評価によって相互に検証する,より客観的な定量的評価指標を提案する。
計算効率の良い新しいベースラインモデルを設計することで,この解析の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-29T00:54:09Z) - SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via
Stein Identity [72.0399904371326]
スコア蒸留における勾配推定は, 分散度が高いことが示唆された。
本稿では,Stin Score Distillation (SSD) と呼ばれる,スコア蒸留の分散を低減するための,より一般的な解を提案する。
我々はSteinDreamerがより安定した勾配更新により既存の方法よりも高速に収束できることを実証した。
論文 参考訳(メタデータ) (2023-12-31T23:04:25Z) - LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval
Score Matching [33.696757740830506]
テキストから3D生成の最近の進歩は、将来性を示している。
多くの手法がSDS(Score Distillation Sampling)に基づいている。
オーバー・スムーシングに対抗するために,ISM(Interval Score Matching)を提案する。
論文 参考訳(メタデータ) (2023-11-19T09:59:09Z) - Text-to-3D with Classifier Score Distillation [80.14832887529259]
クラシファイアフリーガイダンスは最も必須ではなく、補助的なトリックだと考えられている。
我々はこの手法をスコア蒸留 (CSD) と名付け, 生成のための暗黙の分類モデルを用いて解釈できる。
我々は,形状生成,テクスチャ合成,形状編集など,テキストから3Dまでの各種タスクにおけるCSDの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T10:25:40Z) - Three Pillars improving Vision Foundation Model Distillation for Lidar [61.56521056618988]
蒸留における3つの柱の効果について検討した。3Dバックボーン,2Dバックボーン,および事前学習データセットである。
ScaLRと呼ばれるスケーラブルな蒸留法により、2Dと3Dのバックボーンのスケーリングと多様なデータセットの事前トレーニングにより、機能品質が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-10-26T15:54:43Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Debiasing Scores and Prompts of 2D Diffusion for View-consistent
Text-to-3D Generation [38.032010026146146]
ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。
最も顕著な問題の1つは、オブジェクトの最も標準的なビューが他のビューに現れるJanus問題である。
提案手法は, 生成した3次元オブジェクトの現実性を著しく低減し, 2次元拡散モデルへの忠実さと, オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-03-27T17:31:13Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。