Fugu-MT 論文翻訳(概要): Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation

論文の概要: Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation

arxiv url: http://arxiv.org/abs/2303.15413v3
Date: Mon, 9 Oct 2023 07:02:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 14:07:33.474882
Title: Debiasing Scores and Prompts of 2D Diffusion for View-consistent Text-to-3D Generation
Title（参考訳）: ビュー整合テキストから3d生成のための2次元拡散のデバイアススコアとプロンプト
Authors: Susung Hong, Donghoon Ahn, Seungryong Kim
Abstract要約: ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。最も顕著な問題の1つは、オブジェクトの最も標準的なビューが他のビューに現れるJanus問題である。提案手法は, 生成した3次元オブジェクトの現実性を著しく低減し, 2次元拡散モデルへの忠実さと, オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現する。
参考スコア（独自算出の注目度）: 38.032010026146146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing score-distilling text-to-3D generation techniques, despite their considerable promise, often encounter the view inconsistency problem. One of the most notable issues is the Janus problem, where the most canonical view of an object (\textit{e.g}., face or head) appears in other views. In this work, we explore existing frameworks for score-distilling text-to-3D generation and identify the main causes of the view inconsistency problem -- the embedded bias of 2D diffusion models. Based on these findings, we propose two approaches to debias the score-distillation frameworks for view-consistent text-to-3D generation. Our first approach, called score debiasing, involves cutting off the score estimated by 2D diffusion models and gradually increasing the truncation value throughout the optimization process. Our second approach, called prompt debiasing, identifies conflicting words between user prompts and view prompts using a language model, and adjusts the discrepancy between view prompts and the viewing direction of an object. Our experimental results show that our methods improve the realism of the generated 3D objects by significantly reducing artifacts and achieve a good trade-off between faithfulness to the 2D diffusion models and 3D consistency with little overhead. Our project page is available at~\url{https://susunghong.github.io/Debiased-Score-Distillation-Sampling/}.
Abstract（参考訳）: 既存の有望なテキストから3D生成技術は、しばしば不整合性の問題に遭遇する。最も注目すべき問題の1つは、オブジェクトの最も標準的なビュー(\textit{e.g})であるJanus問題である。顔や頭)が他の見方に現れる。本研究では,2次元拡散モデルの埋め込みバイアスであるビューの不整合問題の主な原因を,スコア蒸留テキストから3次元生成のための既存のフレームワークを探索する。これらの知見に基づき、ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。スコアデバイアスと呼ばれる最初のアプローチは、2次元拡散モデルによって推定されるスコアをカットし、最適化プロセスを通じて徐々に切り下げ値を増やすことです。我々の2つ目のアプローチは、プロンプトデバイアスと呼ばれ、言語モデルを用いてユーザプロンプトとビュープロンプトの相反する単語を特定し、ビュープロンプトとオブジェクトの表示方向の相違を調整する。提案手法は,2次元拡散モデルに対する忠実性と,オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現することにより,生成した3次元オブジェクトのリアリズムを向上させることを実証した。プロジェクトのページは~\url{https://susunghong.github.io/debiased-score-distillation-sampling/}で閲覧できます。

関連論文リスト

ConsDreamer: Advancing Multi-View Consistency for Zero-Shot Text-to-3D Generation [46.64928459085584]
本研究では, スコア蒸留プロセスにおける条件項と条件項の両方を精製することにより, ビューバイアスを緩和する新しいフレームワークであるConsDreamerを提案する。 ConsDreamerはテキストから3D生成におけるマルチフェイスのJanus問題を効果的に軽減し、視覚的品質と一貫性の両方において既存の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-04-03T06:43:23Z)
Adapting Human Mesh Recovery with Vision-Language Feedback [17.253535686451897]
視覚言語モデルを用いて対話的な身体部分記述を生成する。我々はテキストエンコーダとポーズVQ-VAEをトレーニングし、テキストを共有潜在空間内のボディポーズにアライメントする。モデルは正確な3D知覚と画像の一貫性を持ったポーズを生成することができる。
論文参考訳（メタデータ） (2025-02-06T07:42:00Z)
Vista3D: Unravel the 3D Darkside of a Single Image [64.00066024235088]
Vista3Dは、わずか5分で素早く一貫した3D生成を実現するフレームワークである。粗い位相では、1つの画像からガウススプラッティングで初期幾何学を高速に生成する。 2つの独立な暗黙関数を持つ非絡み合った表現を使用することで、生成の質を高める。
論文参考訳（メタデータ） (2024-09-18T17:59:44Z)
VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文参考訳（メタデータ） (2024-07-05T12:11:33Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文参考訳（メタデータ） (2024-02-05T12:50:30Z)
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文参考訳（メタデータ） (2023-11-30T07:23:00Z)
SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D [40.088688751115214]
事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
論文参考訳（メタデータ） (2023-10-04T05:59:50Z)
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。本研究では3次元局所編集について検討し,2段階の解法を提案する。モデルを拡張してワンショットのノベルビュー合成を行う。
論文参考訳（メタデータ） (2022-11-25T13:50:00Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。