論文の概要: Text-Guided Texturing by Synchronized Multi-View Diffusion
- arxiv url: http://arxiv.org/abs/2311.12891v2
- Date: Tue, 18 Mar 2025 09:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:12:24.524961
- Title: Text-Guided Texturing by Synchronized Multi-View Diffusion
- Title(参考訳): 同期多視点拡散によるテキストガイドテクスチャ
- Authors: Yuxin Liu, Minshan Xie, Hanyuan Liu, Tien-Tsin Wong,
- Abstract要約: 本稿では,テクスチャを合成し,テキストプロンプトを与えられた3Dオブジェクトを合成する手法を提案する。
本稿では,異なる視点からの拡散過程をコンセンサスに到達させる,同期多視点拡散手法を提案する。
本手法は, 一貫性, シームレス, 高精細なテクスチャを生成する上で, 優れた性能を示す。
- 参考スコア(独自算出の注目度): 18.572258664104293
- License:
- Abstract: This paper introduces a novel approach to synthesize texture to dress up a given 3D object, given a text prompt. Based on the pretrained text-to-image (T2I) diffusion model, existing methods usually employ a project-and-inpaint approach, in which a view of the given object is first generated and warped to another view for inpainting. But it tends to generate inconsistent texture due to the asynchronous diffusion of multiple views. We believe such asynchronous diffusion and insufficient information sharing among views are the root causes of the inconsistent artifact. In this paper, we propose a synchronized multi-view diffusion approach that allows the diffusion processes from different views to reach a consensus of the generated content early in the process, and hence ensures the texture consistency. To synchronize the diffusion, we share the denoised content among different views in each denoising step, specifically blending the latent content in the texture domain from views with overlap. Our method demonstrates superior performance in generating consistent, seamless, highly detailed textures, comparing to state-of-the-art methods.
- Abstract(参考訳): 本稿では,テクスチャを合成し,テキストプロンプトを与えられた3Dオブジェクトを合成する手法を提案する。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルに基づいて、既存の手法は通常、プロジェクト・アンド・インペイントのアプローチを用いており、与えられたオブジェクトのビューを最初に生成し、別のビューに警告してペンキを塗る。
しかし、複数のビューの非同期拡散のため、一貫性のないテクスチャを生成する傾向がある。
このような非同期拡散と、ビュー間での情報共有が不十分なことが、一貫性のないアーティファクトの根本原因であると信じている。
本稿では,異なる視点からの拡散プロセスがプロセスの初期に生成されたコンテンツのコンセンサスに到達し,テクスチャの整合性を確保するための,同期多視点拡散手法を提案する。
拡散を同期させるために、各認知段階において異なるビュー間で認知されたコンテンツを共有し、特にテクスチャ領域内の潜伏したコンテンツを重なり合うビューからブレンドする。
本手法は, 最先端の手法と比較して, 一貫性, シームレス, 高精細なテクスチャを生成する上で, 優れた性能を示す。
関連論文リスト
- GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation [35.04723374116026]
大規模テキスト・トゥ・イメージ(T2I)モデルは、テキスト・トゥ・イメージ(T2I)生成において驚くべき結果を示している。
これらのモデルを用いて3次元ジオメトリーのテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。
本稿では,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T02:32:42Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - TexPainter: Generative Mesh Texturing with Multi-view Consistency [20.366302413005734]
本稿では,マルチビューの一貫性を実現するための新しい手法を提案する。
最適化に基づくカラーフュージョンを用いて、一貫性を強制し、勾配バックプロパゲーションにより遅延符号を間接的に修正する。
提案手法は, テクスチャの整合性と全体的な品質を, 競合する最先端技術と比較して向上させる。
論文 参考訳(メタデータ) (2024-05-17T18:41:36Z) - Infinite Texture: Text-guided High Resolution Diffusion Texture Synthesis [61.189479577198846]
Infinite Textureはテキストプロンプトから任意の大きさのテクスチャ画像を生成する方法である。
本手法は,1つのテクスチャ上に拡散モデルを微調整し,その分布をモデルの出力領域に埋め込むことを学習する。
1つのGPU上で任意の解像度の出力テクスチャ画像を生成するためのスコアアグリゲーションストラテジーによって、我々の微調整拡散モデルが生成される。
論文 参考訳(メタデータ) (2024-05-13T21:53:09Z) - GenesisTex: Adapting Image Denoising Diffusion to Texture Space [15.907134430301133]
GenesisTexはテキスト記述から3次元幾何学のテクスチャを合成する新しい手法である。
我々は,各視点に対して潜在テクスチャマップを保持し,対応する視点の描画に予測ノイズを伴って更新する。
大域的整合性は、ノイズ予測ネットワーク内のスタイル整合性機構の統合によって達成される。
論文 参考訳(メタデータ) (2024-03-26T15:15:15Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Mixture of Diffusers for scene composition and high resolution image
generation [0.0]
拡散器の混合は、既存の拡散モデルの上に構築され、より詳細な合成制御を提供するアルゴリズムである。
キャンバスの異なる領域に作用する複数の拡散過程を調和させることで、個々の物体の位置とスタイルが別々の拡散過程によって制御される大きな画像を生成することができる。
論文 参考訳(メタデータ) (2023-02-05T15:49:26Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。