論文の概要: Advancing Text-to-3D Generation with Linearized Lookahead Variational Score Distillation
- arxiv url: http://arxiv.org/abs/2507.09748v1
- Date: Sun, 13 Jul 2025 18:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.951959
- Title: Advancing Text-to-3D Generation with Linearized Lookahead Variational Score Distillation
- Title(参考訳): リニアライズドルックヘッド変色スコア蒸留によるテキスト・ツー・3D生成の高速化
- Authors: Yu Lei, Bingde Liu, Qingsong Xie, Haonan Lu, Zhijie Deng,
- Abstract要約: スコア蒸留モデルの線形化変種を提案し,L2$-VSDによるライナライズドルックアヘッド変量スコア蒸留(L2$-VSD)を提案する。
L2$-VSDは、既存のディープラーニングライブラリの前方モードのオートディフ機能で効率的に実現できる。
また,本手法を他のVSDベースのテキスト・ツー・3Dフレームワークにシームレスに組み込むことができることを示す。
- 参考スコア(独自算出の注目度): 10.863222482923605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation based on score distillation of pre-trained 2D diffusion models has gained increasing interest, with variational score distillation (VSD) as a remarkable example. VSD proves that vanilla score distillation can be improved by introducing an extra score-based model, which characterizes the distribution of images rendered from 3D models, to correct the distillation gradient. Despite the theoretical foundations, VSD, in practice, is likely to suffer from slow and sometimes ill-posed convergence. In this paper, we perform an in-depth investigation of the interplay between the introduced score model and the 3D model, and find that there exists a mismatching problem between LoRA and 3D distributions in practical implementation. We can simply adjust their optimization order to improve the generation quality. By doing so, the score model looks ahead to the current 3D state and hence yields more reasonable corrections. Nevertheless, naive lookahead VSD may suffer from unstable training in practice due to the potential over-fitting. To address this, we propose to use a linearized variant of the model for score distillation, giving rise to the Linearized Lookahead Variational Score Distillation ($L^2$-VSD). $L^2$-VSD can be realized efficiently with forward-mode autodiff functionalities of existing deep learning libraries. Extensive experiments validate the efficacy of $L^2$-VSD, revealing its clear superiority over prior score distillation-based methods. We also show that our method can be seamlessly incorporated into any other VSD-based text-to-3D framework.
- Abstract(参考訳): 事前学習した2次元拡散モデルのスコア蒸留に基づくテキスト・ツー・3D生成が注目され, 変分点蒸留(VSD)が顕著な例となった。
VSDは、3次元モデルからレンダリングされた画像の分布を特徴付ける余分なスコアベースモデルを導入し、蒸留勾配を補正することで、バニラスコアの蒸留を改善することができることを示した。
理論的な基礎があるにもかかわらず、実際にはVSDは遅く、時には不適切な収束に悩まされる。
本稿では,導入したスコアモデルと3Dモデルとの相互作用を詳細に検討し,実際の実装においてLoRAと3D分布のミスマッチ問題が存在することを確認する。
生成品質を改善するために、最適化を簡単に調整できます。
これにより、スコアモデルは現在の3D状態に先んじるため、より合理的な修正が得られます。
それでも、ナイーブなルックアヘッドVSDは、過度に適合する可能性があるため、実際には不安定なトレーニングに悩まされる可能性がある。
そこで本研究では, ライナライズドルックアヘッド変量スコア蒸留法(L^2$-VSD)を考案した。
既存のディープラーニングライブラリの前方モードオートディフ機能により,$L^2$-VSDを効率的に実現することができる。
L^2$-VSDの有効性を実験的に検証し, 従来の蒸留法よりも明らかな優位性を示した。
また,本手法を他のVSDベースのテキスト・ツー・3Dフレームワークにシームレスに組み込むことができることを示す。
関連論文リスト
- Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching [14.267619174518106]
我々は,KLに基づく目的をScore Implicit Matching (SIM)損失に置き換える新しいテキストから3D生成フレームワークであるDive3Dを紹介する。
様々な2D-to-3DプロンプトにまたがってDive3Dを検証した結果,定性評価において従来手法よりも常に優れていたことが判明した。
Dive3Dはまた、テキスト・アセットアライメント、3Dの可視性、テキスト・ジオメトリの一貫性、テクスチャの質、幾何学的ディテールなど、定量的な指標に関する強力な結果も達成している。
論文 参考訳(メタデータ) (2025-06-16T15:21:30Z) - Diverse Score Distillation [27.790458964072823]
ランダムな初期シードによって定義された生成経路に従うよう最適化するスコアの定式化を提案する。
本稿では,2次元最適化,テキストベースの3D推論,単一ビュー再構成などのタスクにまたがるDSD(Diverse Score Distillation)の応用について紹介する。
論文 参考訳(メタデータ) (2024-12-09T18:59:02Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping [20.7584503748821]
SDS (Score Distillation Sampling) はテキストから3D生成の一般的な技術として登場し、テキストから2Dのガイダンスからビュー依存情報を蒸留することで3Dコンテンツ作成を可能にする。
我々は、SDSの徹底的な解析を行い、その定式化を洗練し、中心となる設計はレンダリングされた画像の分布をモデル化することである。
本稿では,分散に基づく生成の劣化事例として,画像の描画を考慮し,分散モデリングプロセスの迅速化を図る,変分分布マッピング (VDM) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-08T14:04:48Z) - FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior [87.55592645191122]
スコア蒸留サンプリング(SDS)とその変種は、テキスト・ツー・3D世代の発展を大幅に加速させたが、幾何崩壊やテクスチャの低下に弱い。
テキストから3D生成に先立ってODE決定論的サンプリングを探索する新しい「一貫性3D」手法を提案する。
実験により,高忠実で多様な3Dオブジェクトと大規模シーンの生成にConsistent3Dの有効性が示された。
論文 参考訳(メタデータ) (2024-01-17T08:32:07Z) - Taming Mode Collapse in Score Distillation for Text-to-3D Generation [70.32101198891465]
Janus"アーティファクトはテキストから3D生成における問題であり、生成されたオブジェクトは複数のフロントフェイスで各ビューを偽装する。
エントロピースコア蒸留(Entropic Score Distillation, ESD)と呼ばれる新しい3Dスコア蒸留法を提案する。
恥ずかしいほど単純ではないが,我々はESDがJanusアーティファクトのスコア蒸留に有効であることを示す実験を行った。
論文 参考訳(メタデータ) (2023-12-31T22:47:06Z) - Text-to-3D with Classifier Score Distillation [80.14832887529259]
クラシファイアフリーガイダンスは最も必須ではなく、補助的なトリックだと考えられている。
我々はこの手法をスコア蒸留 (CSD) と名付け, 生成のための暗黙の分類モデルを用いて解釈できる。
我々は,形状生成,テクスチャ合成,形状編集など,テキストから3Dまでの各種タスクにおけるCSDの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T10:25:40Z) - Three Pillars improving Vision Foundation Model Distillation for Lidar [61.56521056618988]
蒸留における3つの柱の効果について検討した。3Dバックボーン,2Dバックボーン,および事前学習データセットである。
ScaLRと呼ばれるスケーラブルな蒸留法により、2Dと3Dのバックボーンのスケーリングと多様なデータセットの事前トレーニングにより、機能品質が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-10-26T15:54:43Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。