論文の概要: FlexiTex: Enhancing Texture Generation with Visual Guidance
- arxiv url: http://arxiv.org/abs/2409.12431v2
- Date: Wed, 25 Sep 2024 08:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:52:37.515296
- Title: FlexiTex: Enhancing Texture Generation with Visual Guidance
- Title(参考訳): FlexiTex:ビジュアルガイダンスによるテクスチャ生成の強化
- Authors: DaDong Jiang, Xianghui Yang, Zibo Zhao, Sheng Zhang, Jiaao Yu, Zeqiang Lai, Shaoxiong Yang, Chunchao Guo, Xiaobo Zhou, Zhihui Ke,
- Abstract要約: 視覚誘導によってリッチな情報を埋め込んで高品質なテクスチャを生成するFlexiTexを提案する。
FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、テキストプロンプトの曖昧さを軽減するために、ビジュアルガイダンスからより具体的な情報を取り入れている。
視覚的ガイダンスをさらに強化するため、異なるカメラポーズに基づいて方向指示を自動設計するDirection-Aware Adaptationモジュールを導入する。
- 参考スコア(独自算出の注目度): 5.37115894789085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent texture generation methods achieve impressive results due to the powerful generative prior they leverage from large-scale text-to-image diffusion models. However, abstract textual prompts are limited in providing global textural or shape information, which results in the texture generation methods producing blurry or inconsistent patterns. To tackle this, we present FlexiTex, embedding rich information via visual guidance to generate a high-quality texture. The core of FlexiTex is the Visual Guidance Enhancement module, which incorporates more specific information from visual guidance to reduce ambiguity in the text prompt and preserve high-frequency details. To further enhance the visual guidance, we introduce a Direction-Aware Adaptation module that automatically designs direction prompts based on different camera poses, avoiding the Janus problem and maintaining semantically global consistency. Benefiting from the visual guidance, FlexiTex produces quantitatively and qualitatively sound results, demonstrating its potential to advance texture generation for real-world applications.
- Abstract(参考訳): 近年のテクスチャ生成手法は, 大規模テキスト・画像拡散モデルによる強力な生成に先立って, 印象的な結果が得られる。
しかし、抽象的なテキストプロンプトは、グローバルなテクスチャ情報や形状情報の提供に限られており、その結果、ぼやけたパターンや一貫性のないパターンを生成するテクスチャ生成方法が生み出される。
これを解決するためにFlexiTexを紹介し、視覚誘導によってリッチな情報を埋め込み、高品質なテクスチャを生成する。
FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、ビジュアルガイダンスからより具体的な情報を取り入れて、テキストプロンプトの曖昧さを減らし、高周波の詳細を保存する。
視覚的ガイダンスをさらに強化するために、異なるカメラのポーズに基づいて方向プロンプトを自動設計し、Janusの問題を避け、意味的にグローバルな一貫性を維持するDirection-Aware Adaptationモジュールを導入する。
FlexiTexは視覚的ガイダンスに適合し、定量的かつ質的に質的な結果を生成し、現実世界のアプリケーションのためのテクスチャ生成を前進させる可能性を実証する。
関連論文リスト
- Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation [58.77520205498394]
本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。
フレームワークは3次元形状生成とテクスチャ生成で構成されている。
本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
論文 参考訳(メタデータ) (2025-02-20T04:22:30Z) - SketchFlex: Facilitating Spatial-Semantic Coherence in Text-to-Image Generation with Region-Based Sketches [4.55322003438174]
SketchFlexは空間条件付き画像生成の柔軟性を改善するために設計されたインタラクティブシステムである。
クラウドソースされたオブジェクト属性とリレーションシップによってリッチ化されたセマンティック空間内の合理的な記述でユーザプロンプトを推論する。
ユーザの粗いスケッチをキャニーベースの形状アンカーに洗練し、ユーザ意図の生成品質とアライメントを保証する。
論文 参考訳(メタデータ) (2025-02-11T13:48:11Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - ArtCrafter: Text-Image Aligning Style Transfer via Embedding Reframing [22.054292195271476]
ArtCrafterは、テキストから画像へのスタイル転送のための新しいフレームワークである。
注意に基づくスタイル抽出モジュールを導入する。
また,新たなテキスト画像アライメント拡張コンポーネントを提案する。
論文 参考訳(メタデータ) (2025-01-03T19:17:27Z) - TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling [37.67373829836975]
テクスチャ生成のための新しい多視点サンプリングおよび再サンプリングフレームワークであるTexGenを提案する。
提案手法は,高精細度3次元オブジェクトに対して,高精細度で優れたテクスチャ品質を実現する。
また,テクスチャ生成技術は,テクスチャ編集にも適用可能である。
論文 参考訳(メタデータ) (2024-08-02T14:24:40Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Text2Tex: Text-driven Texture Synthesis via Diffusion Models [31.773823357617093]
テキストプロンプトから3Dメッシュの質の高いテクスチャを生成する新しい方法であるText2Texを提案する。
多視点から高分解能な部分的テクスチャを段階的に合成するために,事前に学習した深度認識画像拡散モデルに塗料を塗布する。
論文 参考訳(メタデータ) (2023-03-20T19:02:13Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。