論文の概要: Enhancing Image Generation Fidelity via Progressive Prompts
- arxiv url: http://arxiv.org/abs/2501.07070v1
- Date: Mon, 13 Jan 2025 05:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:20.427810
- Title: Enhancing Image Generation Fidelity via Progressive Prompts
- Title(参考訳): プログレッシブ・プロンプトによる画像生成の忠実度向上
- Authors: Zhen Xiong, Yuqi Li, Chuanguang Yang, Tiao Tan, Zhihong Zhu, Siyuan Li, Yue Ma,
- Abstract要約: 本稿では,地域プロンプトのための粗い-to-ファインジェネレーションパイプラインを提案する。
より深いレイヤが常にハイレベルなコンテントコントロールを担っているのに対して、浅いレイヤはローレベルなコンテントコントロールを処理しているのです。
提案する地域横断 - 粗い - きめ細かな世代に対する注意制御 - に様々なプロンプトが注入される。
- 参考スコア(独自算出の注目度): 25.099694657440992
- License:
- Abstract: The diffusion transformer (DiT) architecture has attracted significant attention in image generation, achieving better fidelity, performance, and diversity. However, most existing DiT - based image generation methods focus on global - aware synthesis, and regional prompt control has been less explored. In this paper, we propose a coarse - to - fine generation pipeline for regional prompt - following generation. Specifically, we first utilize the powerful large language model (LLM) to generate both high - level descriptions of the image (such as content, topic, and objects) and low - level descriptions (such as details and style). Then, we explore the influence of cross - attention layers at different depths. We find that deeper layers are always responsible for high - level content control, while shallow layers handle low - level content control. Various prompts are injected into the proposed regional cross - attention control for coarse - to - fine generation. By using the proposed pipeline, we enhance the controllability of DiT - based image generation. Extensive quantitative and qualitative results show that our pipeline can improve the performance of the generated images.
- Abstract(参考訳): 拡散変圧器(DiT)アーキテクチャは画像生成に大きな注目を集め、忠実度、性能、多様性の向上を実現している。
しかし、既存のほとんどのDiTベースの画像生成手法は、グローバルな認識型合成に重点を置いており、地域的なプロンプト制御は研究されていない。
本稿では,地域プロンプトのための粗い-to-ファインジェネレーションパイプラインを提案する。
具体的には,画像の高レベル記述(コンテンツ,トピック,オブジェクトなど)と低レベル記述(詳細やスタイルなど)の両方を生成するために,LLMという強力な言語モデルを利用する。
次に、異なる深さにおけるクロスアテンション層の影響について検討する。
より深いレイヤが常にハイレベルなコンテントコントロールを担っているのに対して、浅いレイヤはローレベルなコンテントコントロールを処理しているのです。
提案する地域横断 - 粗い - きめ細かな世代に対する注意制御 - に様々なプロンプトが注入される。
提案したパイプラインを用いて,DiTに基づく画像生成の制御性を向上させる。
広範に定量的および定性的な結果から,我々のパイプラインは生成した画像の性能を向上させることができることが示された。
関連論文リスト
- HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。
階層的なプロンプトは グローバルとローカルの両方のガイダンスを提供する
生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文 参考訳(メタデータ) (2024-09-04T17:58:08Z) - HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。
我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文 参考訳(メタデータ) (2024-06-03T16:13:33Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - GIU-GANs: Global Information Utilization for Generative Adversarial
Networks [3.3945834638760948]
本稿では,Involution Generative Adversarial Networks (GIU-GANs) と呼ばれる新しいGANを提案する。
GIU-GANは、Squeeze-and-Excitation Networks (SENet)とInvolutionを統合したGlobal Information utilization (GIU)モジュールと呼ばれる新しいモジュールを利用している。
バッチ正規化(BN)は、ジェネレータがサンプリングしたノイズ間の表現差を必然的に無視し、生成した画質を劣化させる。
論文 参考訳(メタデータ) (2022-01-25T17:17:15Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z) - Local Class-Specific and Global Image-Level Generative Adversarial
Networks for Semantic-Guided Scene Generation [135.4660201856059]
局所的な文脈でシーン生成を学習し、意味マップをガイダンスとして、局所的なクラス固有の生成ネットワークを設計する。
局所生成のための識別クラス固有の特徴表現をより学習するために,新しい分類モジュールを提案する。
2つのシーン画像生成タスクの実験は、提案したモデルのより優れた生成性能を示す。
論文 参考訳(メタデータ) (2019-12-27T16:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。