論文の概要: Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching
- arxiv url: http://arxiv.org/abs/2506.13594v1
- Date: Mon, 16 Jun 2025 15:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.792335
- Title: Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching
- Title(参考訳): Dive3D:Score Implicit Matchingによる拡散蒸留によるテキスト・ツー・3D生成
- Authors: Weimin Bai, Yubo Li, Wenzheng Chen, Weijian Luo, He Sun,
- Abstract要約: 我々は,KLに基づく目的をScore Implicit Matching (SIM)損失に置き換える新しいテキストから3D生成フレームワークであるDive3Dを紹介する。
様々な2D-to-3DプロンプトにまたがってDive3Dを検証した結果,定性評価において従来手法よりも常に優れていたことが判明した。
Dive3Dはまた、テキスト・アセットアライメント、3Dの可視性、テキスト・ジオメトリの一貫性、テクスチャの質、幾何学的ディテールなど、定量的な指標に関する強力な結果も達成している。
- 参考スコア(独自算出の注目度): 14.267619174518106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling pre-trained 2D diffusion models into 3D assets has driven remarkable advances in text-to-3D synthesis. However, existing methods typically rely on Score Distillation Sampling (SDS) loss, which involves asymmetric KL divergence--a formulation that inherently favors mode-seeking behavior and limits generation diversity. In this paper, we introduce Dive3D, a novel text-to-3D generation framework that replaces KL-based objectives with Score Implicit Matching (SIM) loss, a score-based objective that effectively mitigates mode collapse. Furthermore, Dive3D integrates both diffusion distillation and reward-guided optimization under a unified divergence perspective. Such reformulation, together with SIM loss, yields significantly more diverse 3D outputs while improving text alignment, human preference, and overall visual fidelity. We validate Dive3D across various 2D-to-3D prompts and find that it consistently outperforms prior methods in qualitative assessments, including diversity, photorealism, and aesthetic appeal. We further evaluate its performance on the GPTEval3D benchmark, comparing against nine state-of-the-art baselines. Dive3D also achieves strong results on quantitative metrics, including text-asset alignment, 3D plausibility, text-geometry consistency, texture quality, and geometric detail.
- Abstract(参考訳): 事前訓練された2次元拡散モデルを3Dアセットに蒸留することは、テキストから3D合成において顕著な進歩をもたらした。
しかし、既存の手法は通常、非対称なKL発散を伴うスコア蒸留サンプリング(SDS)の損失に依存しており、これは本質的にモード探索の振る舞いを好んで生成の多様性を制限する定式化である。
本稿では,KLに基づく目的をScore Implicit Matching (SIM)損失に置き換える新しいテキスト・ツー・3D生成フレームワークであるDive3Dを紹介する。
さらに、Dive3Dは拡散蒸留と報酬誘導最適化の両方を統一的な分散の観点から統合する。
このような再構成とSIM損失は、テキストアライメント、人間の好み、全体的な視覚的忠実さを改善しながら、より多様な3D出力をもたらす。
様々な2D-to-3DプロンプトにまたがってDive3Dを検証した結果,多様性,フォトリアリズム,美的魅力などの質的評価において,従来手法よりも一貫して優れていたことが判明した。
GPTEval3Dベンチマークでは,9つの最先端ベースラインと比較し,その性能を更に評価した。
Dive3Dはまた、テキスト・アセットアライメント、3Dの可視性、テキスト・ジオメトリの一貫性、テクスチャの質、幾何学的ディテールなど、定量的な指標に関する強力な結果も達成している。
関連論文リスト
- Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。
本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。
我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。
明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文 参考訳(メタデータ) (2024-10-11T17:26:00Z) - Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling [31.945761751215134]
我々は,3次元一貫したノイズ発生,幾何に基づく勾配のゆらぎ,新しい勾配のゆらぎの損失を導入する。
我々は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合を最小限のコストで解決し,既存のスコア蒸留モデルとの整合性を実現した。
論文 参考訳(メタデータ) (2024-06-24T14:58:17Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery [84.67823511418334]
本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
論文 参考訳(メタデータ) (2023-07-31T02:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。