Fugu-MT 論文翻訳(概要): Taming Mode Collapse in Score Distillation for Text-to-3D Generation

論文の概要: Taming Mode Collapse in Score Distillation for Text-to-3D Generation

arxiv url: http://arxiv.org/abs/2401.00909v1
Date: Sun, 31 Dec 2023 22:47:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 15:23:29.426783
Title: Taming Mode Collapse in Score Distillation for Text-to-3D Generation
Title（参考訳）: テキストから3次元生成のためのスコア蒸留におけるタンピングモード崩壊
Authors: Peihao Wang, Dejia Xu, Zhiwen Fan, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
Abstract要約: エントロピックスコア蒸留(Entropic Score Distillation, ESD)は, スコア蒸留におけるJanusアーティファクトの有効処理である。エントロピースコア蒸留(Entropic Score Distillation, ESD)と呼ばれる新しい3Dスコア蒸留法を提案する。恥ずかしいほど単純ではないが, 広範囲にわたる実験により, ESDがJanusアーティファクトのスコア蒸留に有効であることが示された。
参考スコア（独自算出の注目度）: 72.0399904371326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable performance of score distillation in text-to-3D generation, such techniques notoriously suffer from view inconsistency issues, also known as "Janus" artifact, where the generated objects fake each view with multiple front faces. Although empirically effective methods have approached this problem via score debiasing or prompt engineering, a more rigorous perspective to explain and tackle this problem remains elusive. In this paper, we reveal that the existing score distillation-based text-to-3D generation frameworks degenerate to maximal likelihood seeking on each view independently and thus suffer from the mode collapse problem, manifesting as the Janus artifact in practice. To tame mode collapse, we improve score distillation by re-establishing in entropy term in the corresponding variational objective, which is applied to the distribution of rendered images. Maximizing the entropy encourages diversity among different views in generated 3D assets, thereby mitigating the Janus problem. Based on this new objective, we derive a new update rule for 3D score distillation, dubbed Entropic Score Distillation (ESD). We theoretically reveal that ESD can be simplified and implemented by just adopting the classifier-free guidance trick upon variational score distillation. Although embarrassingly straightforward, our extensive experiments successfully demonstrate that ESD can be an effective treatment for Janus artifacts in score distillation.
Abstract（参考訳）: テキストから3d生成におけるスコア蒸留の顕著な性能にもかかわらず、このような技法は「ジャヌス」アーティファクトとして知られるビューの不一貫性の問題に苦しめられ、生成されたオブジェクトは複数の前面でそれぞれのビューを偽装する。経験的に効果的な手法は、スコアデバイアスやプロンプトエンジニアリングを通じてこの問題にアプローチしてきたが、この問題を説明し対処するためのより厳格な視点はいまだに解明されていない。本稿では,既存のスコア蒸留方式のテキスト・ツー・3D生成フレームワークが,個々の視点を個別に探す最大確率に縮退し,実際にJanusアーティファクトとして現れるモード崩壊問題に悩まされることを明らかにする。モード崩壊を抑えるため,エントロピー項を対応する変分目的に再確立することにより,スコアの蒸留を改良し,描画画像の分布に適用する。エントロピーの最大化は、生成された3Dアセットにおける異なる視点の多様性を促進する。この新たな目的に基づいて,エントロピースコア蒸留(ESD)と呼ばれる3Dスコア蒸留の新しい更新規則を導出する。変量点蒸留における分類器不要誘導法を応用すれば,ESDの簡易化と実装が可能であることを理論的に明らかにする。恥ずかしいほど単純ではないが, 広範囲にわたる実験により, ESDがJanusアーティファクトのスコア蒸留に有効であることが示された。

関連論文リスト

Target-Balanced Score Distillation [6.815973656627764]
SDS(Score Distillation Sampling)は、事前訓練された2次元テキスト-画像拡散モデルから先行データを蒸留することで、3Dアセット生成を可能にする。この問題を緩和するために、最近の変種にはネガティブなプロンプトが組み込まれている。これらの手法は、限られたテクスチャ最適化や、形状歪みを伴う重要なテクスチャゲインといった重要なトレードオフに直面している。
論文参考訳（メタデータ） (2025-11-12T15:53:01Z)
AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation [56.399153019429605]
この研究は、源動力学を無視すると、意味的手がかりを抑えるまたはマージする矛盾した軌跡が得られることを示している。我々は、動的に変化するソース分布を固定されたターゲット分布にマッピングするものとして、テキストから3Dまでの最適化を再構成する。 AnchorDS(AnchorDS)は、画像の条件に応じた状態適応型ガイダンスを提供する、改良されたスコア蒸留機構である。
論文参考訳（メタデータ） (2025-11-12T09:51:23Z)
Advancing Text-to-3D Generation with Linearized Lookahead Variational Score Distillation [10.863222482923605]
スコア蒸留モデルの線形化変種を提案し,L2$-VSDによるライナライズドルックアヘッド変量スコア蒸留(L2$-VSD)を提案する。 L2$-VSDは、既存のディープラーニングライブラリの前方モードのオートディフ機能で効率的に実現できる。また,本手法を他のVSDベースのテキスト・ツー・3Dフレームワークにシームレスに組み込むことができることを示す。
論文参考訳（メタデータ） (2025-07-13T18:57:45Z)
Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching [14.267619174518106]
我々は,KLに基づく目的をScore Implicit Matching (SIM)損失に置き換える新しいテキストから3D生成フレームワークであるDive3Dを紹介する。様々な2D-to-3DプロンプトにまたがってDive3Dを検証した結果,定性評価において従来手法よりも常に優れていたことが判明した。 Dive3Dはまた、テキスト・アセットアライメント、3Dの可視性、テキスト・ジオメトリの一貫性、テクスチャの質、幾何学的ディテールなど、定量的な指標に関する強力な結果も達成している。
論文参考訳（メタデータ） (2025-06-16T15:21:30Z)
AAA-Gaussians: Anti-Aliased and Artifact-Free 3D Gaussian Rendering [8.972911362220803]
エイリアスを緩和する適応型3次元平滑化フィルタを導入し,安定なビュー空間境界法を提案する。本評価では, エイリアス, 歪み, ポップアップアーティファクトを効果的に除去し, リアルタイム, アーティファクトフリーなレンダリングを実現する。
論文参考訳（メタデータ） (2025-04-17T10:16:47Z)
Consistent Flow Distillation for Text-to-3D Generation [14.150490171643034]
SDS (Score Distillation Sampling) は3次元画像生成モデルの蒸留に大きく貢献している。しかし、その最大形状探索行動は、視覚的品質と多様性の低下を招き、その3Dアプリケーションにおける有効性を制限している。本稿では,これらの制限に対処するコンシスタントフロー蒸留(CFD)を提案する。
論文参考訳（メタデータ） (2025-01-09T18:56:05Z)
Connecting Consistency Distillation to Score Distillation for Text-to-3D Generation [32.52588154649761]
本研究では, 整合蒸留理論とスコア蒸留理論を結合させることにより, 現行のスコア蒸留法を解析した。本稿では,これらの問題を緩和するための最適化フレームワークであるGCS( Guided Consistency Sampling)を3D Gaussian Splatting (3DGS)と統合して提案する。本稿では,この問題を緩和するために,BEG方式を3DGSレンダリングに導入する。
論文参考訳（メタデータ） (2024-07-18T15:25:41Z)
VividDreamer: Invariant Score Distillation For Hyper-Realistic Text-to-3D Generation [33.05759961083337]
Invariant Score Distillation (ISD) を提案する。 ISDは、スコア蒸留サンプリング(SDS)における過飽和および過平滑化問題に対処することを目的としている。
論文参考訳（メタデータ） (2024-07-13T09:33:16Z)
VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。 PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文参考訳（メタデータ） (2024-06-21T08:21:52Z)
EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文参考訳（メタデータ） (2024-05-28T12:47:22Z)
SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity [70.32101198891465]
スコア蒸留における勾配推定は, 分散度が高いことが示唆された。本稿では,Stin Score Distillation (SSD) と呼ばれる,スコア蒸留の分散を低減するための,より一般的な解を提案する。我々はSteinDreamerがより安定した勾配更新により既存の方法よりも高速に収束できることを実証した。
論文参考訳（メタデータ） (2023-12-31T23:04:25Z)
Text-to-3D with Classifier Score Distillation [80.14832887529259]
クラシファイアフリーガイダンスは最も必須ではなく、補助的なトリックだと考えられている。我々はこの手法をスコア蒸留 (CSD) と名付け, 生成のための暗黙の分類モデルを用いて解釈できる。我々は,形状生成,テクスチャ合成,形状編集など,テキストから3Dまでの各種タスクにおけるCSDの有効性を検証した。
論文参考訳（メタデータ） (2023-10-30T10:25:40Z)
Three Pillars improving Vision Foundation Model Distillation for Lidar [61.56521056618988]
蒸留における3つの柱の効果について検討した。3Dバックボーン,2Dバックボーン,および事前学習データセットである。 ScaLRと呼ばれるスケーラブルな蒸留法により、2Dと3Dのバックボーンのスケーリングと多様なデータセットの事前トレーニングにより、機能品質が大幅に向上することを示した。
論文参考訳（メタデータ） (2023-10-26T15:54:43Z)
Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation [38.032010026146146]
ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。最も顕著な問題の1つは、オブジェクトの最も標準的なビューが他のビューに現れるJanus問題である。提案手法は, 生成した3次元オブジェクトの現実性を著しく低減し, 2次元拡散モデルへの忠実さと, オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現する。
論文参考訳（メタデータ） (2023-03-27T17:31:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。