Fugu-MT 論文翻訳(概要): GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

論文の概要: GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation

arxiv url: http://arxiv.org/abs/2409.18401v1
Date: Fri, 27 Sep 2024 02:32:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 06:31:22.324852
Title: GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation
Title（参考訳）: GenesisTex2: 安定的で、一貫性があり、高品質なテキスト・ツー・テクスチャ・ジェネレーション
Authors: Jiawei Lu, Yingpeng Zhang, Zengjun Zhao, He Wang, Kun Zhou, Tianjia Shao,
Abstract要約: 大規模テキスト・トゥ・イメージ(T2I)モデルは、テキスト・トゥ・イメージ(T2I)生成において驚くべき結果を示している。これらのモデルを用いて3次元ジオメトリーのテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。本稿では,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。
参考スコア（独自算出の注目度）: 35.04723374116026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale text-guided image diffusion models have shown astonishing results in text-to-image (T2I) generation. However, applying these models to synthesize textures for 3D geometries remains challenging due to the domain gap between 2D images and textures on a 3D surface. Early works that used a projecting-and-inpainting approach managed to preserve generation diversity but often resulted in noticeable artifacts and style inconsistencies. While recent methods have attempted to address these inconsistencies, they often introduce other issues, such as blurring, over-saturation, or over-smoothing. To overcome these challenges, we propose a novel text-to-texture synthesis framework that leverages pretrained diffusion models. We first introduce a local attention reweighing mechanism in the self-attention layers to guide the model in concentrating on spatial-correlated patches across different views, thereby enhancing local details while preserving cross-view consistency. Additionally, we propose a novel latent space merge pipeline, which further ensures consistency across different viewpoints without sacrificing too much diversity. Our method significantly outperforms existing state-of-the-art techniques regarding texture consistency and visual quality, while delivering results much faster than distillation-based methods. Importantly, our framework does not require additional training or fine-tuning, making it highly adaptable to a wide range of models available on public platforms.
Abstract（参考訳）: 大規模テキスト誘導画像拡散モデルでは、テキスト・ツー・イメージ(T2I)生成の驚くべき結果が示されている。しかし、これらのモデルを用いて3次元幾何学のテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。プロジェクション・アンド・インペインティングのアプローチを使った初期の作品では、世代多様性を維持することができたが、しばしば顕著な成果物やスタイルの矛盾が生じた。最近の手法ではこれらの矛盾に対処しようとするが、ぼやけや過飽和、過密といった他の問題もしばしば導入している。これらの課題を克服するために,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。まず,各視点にまたがる空間的関連パッチに集中させることで,視点間の整合性を保ちながら,局所的詳細性を高めることを目的として,自己注意層に局所的注意関係のメカニズムを導入する。さらに,多様性を犠牲にすることなく,様々な視点での整合性を確保するために,新しい潜時空間マージパイプラインを提案する。本手法は, テクスチャの整合性や視覚的品質に関して, 従来の最先端技術よりもはるかに優れており, 蒸留法よりもはるかに高速である。重要なことは、我々のフレームワークは追加のトレーニングや微調整を必要としないため、パブリックプラットフォームで利用可能な広範囲のモデルに高度に適応できます。

関連論文リスト

FlexPainter: Flexible and Multi-View Consistent Texture Generation [15.727635740684157]
textbfFlexPainterは、柔軟なマルチモーダル条件ガイダンスを可能にする新しいテクスチャ生成パイプラインである。我々のフレームワークは、柔軟性と生成品質の両方において最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-06-03T08:36:03Z)
PacTure: Efficient PBR Texture Generation on Packed Views with Visual Autoregressive Models [73.4445896872942]
PacTureは、未ドメインの3Dメッシュから物理ベースのレンダリング(PBR)素材テクスチャを生成するためのフレームワークである。ビューパッキング(View Packing)は、ビュー毎の有効解像度を高める新しいテクニックである。
論文参考訳（メタデータ） (2025-05-28T14:23:30Z)
RomanTex: Decoupling 3D-aware Rotary Positional Embedded Multi-Attention Network for Texture Synthesis [10.350576861948952]
RomanTexはマルチビューベースのテクスチャ生成フレームワークで、マルチアテンションネットワークと基礎となる3D表現を統合している。本手法はテクスチャの品質と整合性を実現する。
論文参考訳（メタデータ） (2025-03-24T17:56:11Z)
TriTex: Learning Texture from a Single Mesh via Triplane Semantic Features [78.13246375582906]
本研究では,1つのテクスチャメッシュから体積テクスチャ場を学習し,セマンティックな特徴を対象色にマッピングする手法を提案する。本手法は,ゲーム開発などのアプリケーションにおいて,3次元モデル間で優れたテクスチャ品質を実現する。
論文参考訳（メタデータ） (2025-03-20T18:35:03Z)
InsTex: Indoor Scenes Stylized Texture Synthesis [81.12010726769768]
拡張現実(ARVR)アプリケーションでは、高品質なテクスチャが3Dシーンに不可欠である。現在の手法は、長い処理時間と視覚的アーティファクトに悩まされている。 3Dシーンのための高品質なテクスチャを生成するために設計された2段階アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-01-22T08:37:59Z)
RoCoTex: A Robust Method for Consistent Texture Synthesis with Diffusion Models [3.714901836138171]
メッシュに整合した一貫性とシームレスなテクスチャを生成するための頑健なテキスト・ツー・テクスチャ手法を提案する。本手法では,SDXLや複数制御ネットなどの最先端2次元拡散モデルを用いて,構造的特徴を捉えるとともに,テクスチャの複雑な詳細を抽出する。
論文参考訳（メタデータ） (2024-09-30T06:29:50Z)
TexPainter: Generative Mesh Texturing with Multi-view Consistency [20.366302413005734]
本稿では,マルチビューの一貫性を実現するための新しい手法を提案する。最適化に基づくカラーフュージョンを用いて、一貫性を強制し、勾配バックプロパゲーションにより遅延符号を間接的に修正する。提案手法は, テクスチャの整合性と全体的な品質を, 競合する最先端技術と比較して向上させる。
論文参考訳（メタデータ） (2024-05-17T18:41:36Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
GenesisTex: Adapting Image Denoising Diffusion to Texture Space [15.907134430301133]
GenesisTexはテキスト記述から3次元幾何学のテクスチャを合成する新しい手法である。我々は,各視点に対して潜在テクスチャマップを保持し,対応する視点の描画に予測ノイズを伴って更新する。大域的整合性は、ノイズ予測ネットワーク内のスタイル整合性機構の統合によって達成される。
論文参考訳（メタデータ） (2024-03-26T15:15:15Z)
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文参考訳（メタデータ） (2023-10-20T19:15:29Z)
Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文参考訳（メタデータ） (2023-09-15T16:34:51Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
Text-guided High-definition Consistency Texture Model [0.0]
本稿では,3次元メッシュのテクスチャをテキストプロンプトに従って生成する手法として,HCTM(High-definition Consistency Texture Model)を提案する。本研究では,事前学習した深度画像拡散モデルを利用して,テキストプロンプトと深度マップに基づいて単一視点結果を生成する。提案手法は、3次元メッシュに対して高精細で一貫したテクスチャを生成する上で有望な結果を示した。
論文参考訳（メタデータ） (2023-05-10T05:09:05Z)
3DGen: Triplane Latent Diffusion for Textured Mesh Generation [17.178939191534994]
三面体VAEは、テクスチャメッシュの潜時表現を学習し、条件拡散モデルが三面体の特徴を生成する。このアーキテクチャは初めて、高品質なテクスチャ化された、3Dメッシュの条件付きおよび非条件生成を可能にする。メッシュの品質とテクスチャ生成において、イメージコンディショニングと非コンディショナリ生成において、従来よりも大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2023-03-09T16:18:14Z)
Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文参考訳（メタデータ） (2021-05-31T07:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。