論文の概要: Text-Guided Texturing by Synchronized Multi-View Diffusion
- arxiv url: http://arxiv.org/abs/2311.12891v1
- Date: Tue, 21 Nov 2023 06:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:36:12.680211
- Title: Text-Guided Texturing by Synchronized Multi-View Diffusion
- Title(参考訳): 同期多視点拡散によるテキストガイドテクスチャ
- Authors: Yuxin Liu, Minshan Xie, Hanyuan Liu, Tien-Tsin Wong
- Abstract要約: 本稿では,テクスチャを合成し,テキストプロンプトを与えられた3Dオブジェクトを合成する手法を提案する。
本稿では,異なる視点からの拡散過程をコンセンサスに到達させる,同期多視点拡散手法を提案する。
本手法は, 一貫性, シームレス, 高精細なテクスチャを生成する上で, 優れた性能を示す。
- 参考スコア(独自算出の注目度): 20.288858368568544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel approach to synthesize texture to dress up a
given 3D object, given a text prompt. Based on the pretrained text-to-image
(T2I) diffusion model, existing methods usually employ a project-and-inpaint
approach, in which a view of the given object is first generated and warped to
another view for inpainting. But it tends to generate inconsistent texture due
to the asynchronous diffusion of multiple views. We believe such asynchronous
diffusion and insufficient information sharing among views are the root causes
of the inconsistent artifact. In this paper, we propose a synchronized
multi-view diffusion approach that allows the diffusion processes from
different views to reach a consensus of the generated content early in the
process, and hence ensures the texture consistency. To synchronize the
diffusion, we share the denoised content among different views in each
denoising step, specifically blending the latent content in the texture domain
from views with overlap. Our method demonstrates superior performance in
generating consistent, seamless, highly detailed textures, comparing to
state-of-the-art methods.
- Abstract(参考訳): 本稿では,テクスチャを合成し,テキストプロンプトにより所定の3dオブジェクトをドレスアップする新しい手法を提案する。
t2i(pretrained text-to-image)拡散モデルに基づいて、既存の手法は通常、与えられたオブジェクトのビューを最初に生成して別のビューにウォープする、プロジェクト・アンド・インペイント(project-and-inpaint)アプローチを採用している。
しかし、複数のビューの非同期拡散のため、一貫性のないテクスチャを生成する傾向がある。
このような非同期拡散とビュー間の情報共有の不足が、一貫性のないアーティファクトの根本原因であると考えている。
本稿では,異なる視点からの拡散プロセスがプロセスの初期に生成されたコンテンツのコンセンサスに到達し,テクスチャの整合性を確保するための,同期多視点拡散手法を提案する。
拡散を同期させるために、各認知段階において異なるビュー間で認知されたコンテンツを共有し、特にテクスチャ領域内の潜伏したコンテンツを重なり合うビューからブレンドする。
本手法は,最先端手法と比較して,一貫性,シームレス,高精細なテクスチャの生成において優れた性能を示す。
関連論文リスト
- GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation [35.04723374116026]
大規模テキスト・トゥ・イメージ(T2I)モデルは、テキスト・トゥ・イメージ(T2I)生成において驚くべき結果を示している。
これらのモデルを用いて3次元ジオメトリーのテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。
本稿では,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T02:32:42Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - TexPainter: Generative Mesh Texturing with Multi-view Consistency [20.366302413005734]
本稿では,マルチビューの一貫性を実現するための新しい手法を提案する。
最適化に基づくカラーフュージョンを用いて、一貫性を強制し、勾配バックプロパゲーションにより遅延符号を間接的に修正する。
提案手法は, テクスチャの整合性と全体的な品質を, 競合する最先端技術と比較して向上させる。
論文 参考訳(メタデータ) (2024-05-17T18:41:36Z) - Infinite Texture: Text-guided High Resolution Diffusion Texture Synthesis [61.189479577198846]
Infinite Textureはテキストプロンプトから任意の大きさのテクスチャ画像を生成する方法である。
本手法は,1つのテクスチャ上に拡散モデルを微調整し,その分布をモデルの出力領域に埋め込むことを学習する。
1つのGPU上で任意の解像度の出力テクスチャ画像を生成するためのスコアアグリゲーションストラテジーによって、我々の微調整拡散モデルが生成される。
論文 参考訳(メタデータ) (2024-05-13T21:53:09Z) - GenesisTex: Adapting Image Denoising Diffusion to Texture Space [15.907134430301133]
GenesisTexはテキスト記述から3次元幾何学のテクスチャを合成する新しい手法である。
我々は,各視点に対して潜在テクスチャマップを保持し,対応する視点の描画に予測ノイズを伴って更新する。
大域的整合性は、ノイズ予測ネットワーク内のスタイル整合性機構の統合によって達成される。
論文 参考訳(メタデータ) (2024-03-26T15:15:15Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Mixture of Diffusers for scene composition and high resolution image
generation [0.0]
拡散器の混合は、既存の拡散モデルの上に構築され、より詳細な合成制御を提供するアルゴリズムである。
キャンバスの異なる領域に作用する複数の拡散過程を調和させることで、個々の物体の位置とスタイルが別々の拡散過程によって制御される大きな画像を生成することができる。
論文 参考訳(メタデータ) (2023-02-05T15:49:26Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。