論文の概要: FlexiTex: Enhancing Texture Generation with Visual Guidance
- arxiv url: http://arxiv.org/abs/2409.12431v3
- Date: Wed, 25 Sep 2024 08:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:52:37.512563
- Title: FlexiTex: Enhancing Texture Generation with Visual Guidance
- Title(参考訳): FlexiTex:ビジュアルガイダンスによるテクスチャ生成の強化
- Authors: DaDong Jiang, Xianghui Yang, Zibo Zhao, Sheng Zhang, Jiaao Yu, Zeqiang Lai, Shaoxiong Yang, Chunchao Guo, Xiaobo Zhou, Zhihui Ke,
- Abstract要約: 視覚誘導によってリッチな情報を埋め込んで高品質なテクスチャを生成するFlexiTexを提案する。
FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、テキストプロンプトの曖昧さを軽減するために、ビジュアルガイダンスからより具体的な情報を取り入れている。
視覚的ガイダンスをさらに強化するため、異なるカメラポーズに基づいて方向指示を自動設計するDirection-Aware Adaptationモジュールを導入する。
- 参考スコア(独自算出の注目度): 5.37115894789085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent texture generation methods achieve impressive results due to the powerful generative prior they leverage from large-scale text-to-image diffusion models. However, abstract textual prompts are limited in providing global textural or shape information, which results in the texture generation methods producing blurry or inconsistent patterns. To tackle this, we present FlexiTex, embedding rich information via visual guidance to generate a high-quality texture. The core of FlexiTex is the Visual Guidance Enhancement module, which incorporates more specific information from visual guidance to reduce ambiguity in the text prompt and preserve high-frequency details. To further enhance the visual guidance, we introduce a Direction-Aware Adaptation module that automatically designs direction prompts based on different camera poses, avoiding the Janus problem and maintaining semantically global consistency. Benefiting from the visual guidance, FlexiTex produces quantitatively and qualitatively sound results, demonstrating its potential to advance texture generation for real-world applications.
- Abstract(参考訳): 近年のテクスチャ生成手法は, 大規模テキスト・画像拡散モデルによる強力な生成に先立って, 印象的な結果が得られる。
しかし、抽象的なテキストプロンプトは、グローバルなテクスチャ情報や形状情報の提供に限られており、その結果、ぼやけたパターンや一貫性のないパターンを生成するテクスチャ生成方法が生み出される。
これを解決するためにFlexiTexを紹介し、視覚誘導によってリッチな情報を埋め込み、高品質なテクスチャを生成する。
FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、ビジュアルガイダンスからより具体的な情報を取り入れて、テキストプロンプトの曖昧さを減らし、高周波の詳細を保存する。
視覚的ガイダンスをさらに強化するために、異なるカメラのポーズに基づいて方向プロンプトを自動設計し、Janusの問題を避け、意味的にグローバルな一貫性を維持するDirection-Aware Adaptationモジュールを導入する。
FlexiTexは視覚的ガイダンスに適合し、定量的かつ質的に質的な結果を生成し、現実世界のアプリケーションのためのテクスチャ生成を前進させる可能性を実証する。
関連論文リスト
- StyleTex: Style Image-Guided Texture Generation for 3D Models [8.764938886974482]
スタイル誘導テクスチャ生成は、参照画像のスタイルと入力メッシュの幾何学の両方に調和したテクスチャを生成することを目的としている。
StyleTexは、3Dモデルのためのスタイリングテクスチャを作成するための革新的な拡散モデルベースのフレームワークである。
論文 参考訳(メタデータ) (2024-11-01T06:57:04Z) - TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling [37.67373829836975]
テクスチャ生成のための新しい多視点サンプリングおよび再サンプリングフレームワークであるTexGenを提案する。
提案手法は,高精細度3次元オブジェクトに対して,高精細度で優れたテクスチャ品質を実現する。
また,テクスチャ生成技術は,テクスチャ編集にも適用可能である。
論文 参考訳(メタデータ) (2024-08-02T14:24:40Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - TextureDreamer: Image-guided Texture Synthesis through Geometry-aware
Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。
少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文 参考訳(メタデータ) (2024-01-17T18:55:49Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Text2Tex: Text-driven Texture Synthesis via Diffusion Models [31.773823357617093]
テキストプロンプトから3Dメッシュの質の高いテクスチャを生成する新しい方法であるText2Texを提案する。
多視点から高分解能な部分的テクスチャを段階的に合成するために,事前に学習した深度認識画像拡散モデルに塗料を塗布する。
論文 参考訳(メタデータ) (2023-03-20T19:02:13Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。