論文の概要: Text-Guided Texturing by Synchronized Multi-View Diffusion
- arxiv url: http://arxiv.org/abs/2311.12891v1
- Date: Tue, 21 Nov 2023 06:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:36:12.680211
- Title: Text-Guided Texturing by Synchronized Multi-View Diffusion
- Title(参考訳): 同期多視点拡散によるテキストガイドテクスチャ
- Authors: Yuxin Liu, Minshan Xie, Hanyuan Liu, Tien-Tsin Wong
- Abstract要約: 本稿では,テクスチャを合成し,テキストプロンプトを与えられた3Dオブジェクトを合成する手法を提案する。
本稿では,異なる視点からの拡散過程をコンセンサスに到達させる,同期多視点拡散手法を提案する。
本手法は, 一貫性, シームレス, 高精細なテクスチャを生成する上で, 優れた性能を示す。
- 参考スコア(独自算出の注目度): 20.288858368568544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel approach to synthesize texture to dress up a
given 3D object, given a text prompt. Based on the pretrained text-to-image
(T2I) diffusion model, existing methods usually employ a project-and-inpaint
approach, in which a view of the given object is first generated and warped to
another view for inpainting. But it tends to generate inconsistent texture due
to the asynchronous diffusion of multiple views. We believe such asynchronous
diffusion and insufficient information sharing among views are the root causes
of the inconsistent artifact. In this paper, we propose a synchronized
multi-view diffusion approach that allows the diffusion processes from
different views to reach a consensus of the generated content early in the
process, and hence ensures the texture consistency. To synchronize the
diffusion, we share the denoised content among different views in each
denoising step, specifically blending the latent content in the texture domain
from views with overlap. Our method demonstrates superior performance in
generating consistent, seamless, highly detailed textures, comparing to
state-of-the-art methods.
- Abstract(参考訳): 本稿では,テクスチャを合成し,テキストプロンプトにより所定の3dオブジェクトをドレスアップする新しい手法を提案する。
t2i(pretrained text-to-image)拡散モデルに基づいて、既存の手法は通常、与えられたオブジェクトのビューを最初に生成して別のビューにウォープする、プロジェクト・アンド・インペイント(project-and-inpaint)アプローチを採用している。
しかし、複数のビューの非同期拡散のため、一貫性のないテクスチャを生成する傾向がある。
このような非同期拡散とビュー間の情報共有の不足が、一貫性のないアーティファクトの根本原因であると考えている。
本稿では,異なる視点からの拡散プロセスがプロセスの初期に生成されたコンテンツのコンセンサスに到達し,テクスチャの整合性を確保するための,同期多視点拡散手法を提案する。
拡散を同期させるために、各認知段階において異なるビュー間で認知されたコンテンツを共有し、特にテクスチャ領域内の潜伏したコンテンツを重なり合うビューからブレンドする。
本手法は,最先端手法と比較して,一貫性,シームレス,高精細なテクスチャの生成において優れた性能を示す。
関連論文リスト
- ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Cross-Modal Contextualized Diffusion Models for Text-Guided Visual
Generation and Editing [71.08616120359348]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Highly Detailed and Temporal Consistent Video Stylization via
Synchronized Multi-Frame Diffusion [22.33952368534147]
テキストガイド付きビデオ・ビデオ・スタイリングは、ソースビデオの視覚的な外観を、テキストプロンプトでガイドされた異なる外観に変換する。
既存のテキスト誘導画像拡散モデルは、スタイリングされたビデオ合成のために拡張することができる。
視覚的詳細と時間的整合性の両方を維持するための同期多フレーム拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-24T08:38:19Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Text2Tex: Text-driven Texture Synthesis via Diffusion Models [31.773823357617093]
テキストプロンプトから3Dメッシュの質の高いテクスチャを生成する新しい方法であるText2Texを提案する。
多視点から高分解能な部分的テクスチャを段階的に合成するために,事前に学習した深度認識画像拡散モデルに塗料を塗布する。
論文 参考訳(メタデータ) (2023-03-20T19:02:13Z) - Mixture of Diffusers for scene composition and high resolution image
generation [0.0]
拡散器の混合は、既存の拡散モデルの上に構築され、より詳細な合成制御を提供するアルゴリズムである。
キャンバスの異なる領域に作用する複数の拡散過程を調和させることで、個々の物体の位置とスタイルが別々の拡散過程によって制御される大きな画像を生成することができる。
論文 参考訳(メタデータ) (2023-02-05T15:49:26Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。