Fugu-MT 論文翻訳(概要): FlexiTex: Enhancing Texture Generation with Visual Guidance

論文の概要: FlexiTex: Enhancing Texture Generation with Visual Guidance

arxiv url: http://arxiv.org/abs/2409.12431v2
Date: Wed, 25 Sep 2024 08:45:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 14:52:37.515296
Title: FlexiTex: Enhancing Texture Generation with Visual Guidance
Title（参考訳）: FlexiTex:ビジュアルガイダンスによるテクスチャ生成の強化
Authors: DaDong Jiang, Xianghui Yang, Zibo Zhao, Sheng Zhang, Jiaao Yu, Zeqiang Lai, Shaoxiong Yang, Chunchao Guo, Xiaobo Zhou, Zhihui Ke,
Abstract要約: 視覚誘導によってリッチな情報を埋め込んで高品質なテクスチャを生成するFlexiTexを提案する。 FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、テキストプロンプトの曖昧さを軽減するために、ビジュアルガイダンスからより具体的な情報を取り入れている。視覚的ガイダンスをさらに強化するため、異なるカメラポーズに基づいて方向指示を自動設計するDirection-Aware Adaptationモジュールを導入する。
参考スコア（独自算出の注目度）: 5.37115894789085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent texture generation methods achieve impressive results due to the powerful generative prior they leverage from large-scale text-to-image diffusion models. However, abstract textual prompts are limited in providing global textural or shape information, which results in the texture generation methods producing blurry or inconsistent patterns. To tackle this, we present FlexiTex, embedding rich information via visual guidance to generate a high-quality texture. The core of FlexiTex is the Visual Guidance Enhancement module, which incorporates more specific information from visual guidance to reduce ambiguity in the text prompt and preserve high-frequency details. To further enhance the visual guidance, we introduce a Direction-Aware Adaptation module that automatically designs direction prompts based on different camera poses, avoiding the Janus problem and maintaining semantically global consistency. Benefiting from the visual guidance, FlexiTex produces quantitatively and qualitatively sound results, demonstrating its potential to advance texture generation for real-world applications.
Abstract（参考訳）: 近年のテクスチャ生成手法は, 大規模テキスト・画像拡散モデルによる強力な生成に先立って, 印象的な結果が得られる。しかし、抽象的なテキストプロンプトは、グローバルなテクスチャ情報や形状情報の提供に限られており、その結果、ぼやけたパターンや一貫性のないパターンを生成するテクスチャ生成方法が生み出される。これを解決するためにFlexiTexを紹介し、視覚誘導によってリッチな情報を埋め込み、高品質なテクスチャを生成する。 FlexiTexのコアとなるVisual Guidance Enhancementモジュールは、ビジュアルガイダンスからより具体的な情報を取り入れて、テキストプロンプトの曖昧さを減らし、高周波の詳細を保存する。視覚的ガイダンスをさらに強化するために、異なるカメラのポーズに基づいて方向プロンプトを自動設計し、Janusの問題を避け、意味的にグローバルな一貫性を維持するDirection-Aware Adaptationモジュールを導入する。 FlexiTexは視覚的ガイダンスに適合し、定量的かつ質的に質的な結果を生成し、現実世界のアプリケーションのためのテクスチャ生成を前進させる可能性を実証する。

関連論文リスト

SeqTex: Generate Mesh Textures in Video Sequence [62.766839821764144]
本稿では3次元テクスチャ生成モデルのトレーニングのための新しいエンドツーエンドフレームワークであるSeqTexを紹介する。画像条件とテキスト条件の両テクスチャ生成タスクにおいて,SeqTexは最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-07-06T07:58:36Z)
FlexPainter: Flexible and Multi-View Consistent Texture Generation [15.727635740684157]
textbfFlexPainterは、柔軟なマルチモーダル条件ガイダンスを可能にする新しいテクスチャ生成パイプラインである。我々のフレームワークは、柔軟性と生成品質の両方において最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-06-03T08:36:03Z)
Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models [76.68654868991517]
スライドや文書の段落などの画像中の長文は、現在の生成モデルにとって大きな課題である。詳細なシーンテキストの特徴をキャプチャするために最適化された新しいテキスト中心のバイナリトークンーを導入します。モデルNameは,高画質の長文画像を前例のない忠実度で生成するマルチモーダル自己回帰モデルである。
論文参考訳（メタデータ） (2025-03-26T03:44:25Z)
TriTex: Learning Texture from a Single Mesh via Triplane Semantic Features [78.13246375582906]
本研究では,1つのテクスチャメッシュから体積テクスチャ場を学習し,セマンティックな特徴を対象色にマッピングする手法を提案する。本手法は,ゲーム開発などのアプリケーションにおいて,3次元モデル間で優れたテクスチャ品質を実現する。
論文参考訳（メタデータ） (2025-03-20T18:35:03Z)
DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文参考訳（メタデータ） (2025-03-03T15:22:57Z)
SketchFlex: Facilitating Spatial-Semantic Coherence in Text-to-Image Generation with Region-Based Sketches [4.55322003438174]
SketchFlexは空間条件付き画像生成の柔軟性を改善するために設計されたインタラクティブシステムである。クラウドソースされたオブジェクト属性とリレーションシップによってリッチ化されたセマンティック空間内の合理的な記述でユーザプロンプトを推論する。ユーザの粗いスケッチをキャニーベースの形状アンカーに洗練し、ユーザ意図の生成品質とアライメントを保証する。
論文参考訳（メタデータ） (2025-02-11T13:48:11Z)
Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文参考訳（メタデータ） (2025-01-10T11:44:59Z)
ArtCrafter: Text-Image Aligning Style Transfer via Embedding Reframing [25.610375901522886]
ArtCrafterは、テキストから画像へのスタイル転送のための新しいフレームワークである。注意に基づくスタイル抽出モジュールを導入する。また,新たなテキスト画像アライメント拡張コンポーネントを提案する。
論文参考訳（メタデータ） (2025-01-03T19:17:27Z)
StyleTex: Style Image-Guided Texture Generation for 3D Models [8.764938886974482]
スタイル誘導テクスチャ生成は、参照画像のスタイルと入力メッシュの幾何学の両方に調和したテクスチャを生成することを目的としている。 StyleTexは、3Dモデルのためのスタイリングテクスチャを作成するための革新的な拡散モデルベースのフレームワークである。
論文参考訳（メタデータ） (2024-11-01T06:57:04Z)
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling [37.67373829836975]
テクスチャ生成のための新しい多視点サンプリングおよび再サンプリングフレームワークであるTexGenを提案する。提案手法は,高精細度3次元オブジェクトに対して,高精細度で優れたテクスチャ品質を実現する。また,テクスチャ生成技術は,テクスチャ編集にも適用可能である。
論文参考訳（メタデータ） (2024-08-02T14:24:40Z)
ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。 MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
TextureDreamer: Image-guided Texture Synthesis through Geometry-aware Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文参考訳（メタデータ） (2024-01-17T18:55:49Z)
ENTED: Enhanced Neural Texture Extraction and Distribution for Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文参考訳（メタデータ） (2024-01-13T04:54:59Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-04-25T02:14:44Z)
Text2Tex: Text-driven Texture Synthesis via Diffusion Models [31.773823357617093]
テキストプロンプトから3Dメッシュの質の高いテクスチャを生成する新しい方法であるText2Texを提案する。多視点から高分解能な部分的テクスチャを段階的に合成するために,事前に学習した深度認識画像拡散モデルに塗料を塗布する。
論文参考訳（メタデータ） (2023-03-20T19:02:13Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。 DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文参考訳（メタデータ） (2020-05-26T02:33:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。