論文の概要: Debiasing Scores and Prompts of 2D Diffusion for View-consistent
Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2303.15413v5
- Date: Tue, 19 Dec 2023 22:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:24:12.364304
- Title: Debiasing Scores and Prompts of 2D Diffusion for View-consistent
Text-to-3D Generation
- Title(参考訳): ビュー整合テキストから3d生成のための2次元拡散のデバイアススコアとプロンプト
- Authors: Susung Hong, Donghoon Ahn, Seungryong Kim
- Abstract要約: ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。
最も顕著な問題の1つは、オブジェクトの最も標準的なビューが他のビューに現れるJanus問題である。
提案手法は, 生成した3次元オブジェクトの現実性を著しく低減し, 2次元拡散モデルへの忠実さと, オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現する。
- 参考スコア(独自算出の注目度): 38.032010026146146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing score-distilling text-to-3D generation techniques, despite their
considerable promise, often encounter the view inconsistency problem. One of
the most notable issues is the Janus problem, where the most canonical view of
an object (\textit{e.g}., face or head) appears in other views. In this work,
we explore existing frameworks for score-distilling text-to-3D generation and
identify the main causes of the view inconsistency problem -- the embedded bias
of 2D diffusion models. Based on these findings, we propose two approaches to
debias the score-distillation frameworks for view-consistent text-to-3D
generation. Our first approach, called score debiasing, involves cutting off
the score estimated by 2D diffusion models and gradually increasing the
truncation value throughout the optimization process. Our second approach,
called prompt debiasing, identifies conflicting words between user prompts and
view prompts using a language model, and adjusts the discrepancy between view
prompts and the viewing direction of an object. Our experimental results show
that our methods improve the realism of the generated 3D objects by
significantly reducing artifacts and achieve a good trade-off between
faithfulness to the 2D diffusion models and 3D consistency with little
overhead. Our project page is available
at~\url{https://susunghong.github.io/Debiased-Score-Distillation-Sampling/}.
- Abstract(参考訳): 既存の有望なテキストから3D生成技術は、しばしば不整合性の問題に遭遇する。
最も注目すべき問題の1つは、オブジェクトの最も標準的なビュー(\textit{e.g})であるJanus問題である。
顔や頭)が他の見方に現れる。
本研究では,2次元拡散モデルの埋め込みバイアスであるビューの不整合問題の主な原因を,スコア蒸留テキストから3次元生成のための既存のフレームワークを探索する。
これらの知見に基づき、ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。
スコアデバイアスと呼ばれる最初のアプローチは、2次元拡散モデルによって推定されるスコアをカットし、最適化プロセスを通じて徐々に切り下げ値を増やすことです。
我々の2つ目のアプローチは、プロンプトデバイアスと呼ばれ、言語モデルを用いてユーザプロンプトとビュープロンプトの相反する単語を特定し、ビュープロンプトとオブジェクトの表示方向の相違を調整する。
提案手法は,2次元拡散モデルに対する忠実性と,オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現することにより,生成した3次元オブジェクトのリアリズムを向上させることを実証した。
プロジェクトのページは~\url{https://susunghong.github.io/debiased-score-distillation-sampling/}で閲覧できます。
関連論文リスト
- VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。
我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文 参考訳(メタデータ) (2024-07-05T12:11:33Z) - Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling [31.945761751215134]
我々は,3次元一貫したノイズ発生,幾何に基づく勾配のゆらぎ,新しい勾配のゆらぎの損失を導入する。
我々は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合を最小限のコストで解決し,既存のスコア蒸留モデルとの整合性を実現した。
論文 参考訳(メタデータ) (2024-06-24T14:58:17Z) - VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation [96.62867261689037]
視覚プロンプト誘導型3次元拡散モデル(VP3D)を提案する。
VP3Dは、テキストから3D生成を促進するために、2D視覚プロンプトの視覚的外観知識を明示的に解放する。
実験の結果,VP3Dの2次元視覚プロンプトは3次元モデルの視覚的外観の学習を著しく容易にすることがわかった。
論文 参考訳(メタデータ) (2024-03-25T17:59:31Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap
Between Text-to-2D and Text-to-3D Generation [64.12848271290119]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent
Text-to-3D [40.088688751115214]
事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。
昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。
提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-04T05:59:50Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。