論文の概要: Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2407.03006v1
- Date: Wed, 3 Jul 2024 11:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 14:35:46.931332
- Title: Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation
- Title(参考訳): テキスト誘導画像変換のための周波数制御拡散モデル
- Authors: Xiang Gao, Zhengbo Xu, Junhan Zhao, Jiaying Liu,
- Abstract要約: 大規模テキスト・ツー・イメージ拡散モデル(T2I)は画像・画像翻訳(I2I)の強力なツールとして登場した。
本稿では,周波数制御拡散モデル(FCDiffusion)を提案する。
- 参考スコア(独自算出の注目度): 17.30877810859863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale text-to-image (T2I) diffusion models have emerged as a powerful tool for image-to-image translation (I2I), allowing open-domain image translation via user-provided text prompts. This paper proposes frequency-controlled diffusion model (FCDiffusion), an end-to-end diffusion-based framework that contributes a novel solution to text-guided I2I from a frequency-domain perspective. At the heart of our framework is a feature-space frequency-domain filtering module based on Discrete Cosine Transform, which filters the latent features of the source image in the DCT domain, yielding filtered image features bearing different DCT spectral bands as different control signals to the pre-trained Latent Diffusion Model. We reveal that control signals of different DCT spectral bands bridge the source image and the T2I generated image in different correlations (e.g., style, structure, layout, contour, etc.), and thus enable versatile I2I applications emphasizing different I2I correlations, including style-guided content creation, image semantic manipulation, image scene translation, and image style translation. Different from related approaches, FCDiffusion establishes a unified text-guided I2I framework suitable for diverse image translation tasks simply by switching among different frequency control branches at inference time. The effectiveness and superiority of our method for text-guided I2I are demonstrated with extensive experiments both qualitatively and quantitatively. The code is publicly available at: https://github.com/XiangGao1102/FCDiffusion.
- Abstract(参考訳): 近年,大規模なテキスト・ツー・イメージ拡散モデルが画像・画像変換(I2I)の強力なツールとして登場し,ユーザが提供するテキスト・プロンプトによるオープンドメイン画像翻訳が可能になった。
本稿では、周波数領域の観点から、テキスト誘導I2Iの新しいソリューションに寄与する、エンドツーエンドの拡散に基づくフレームワークである周波数制御拡散モデル(FCDiffusion)を提案する。
本フレームワークの中心となるのは、離散コサイン変換に基づく特徴空間周波数領域フィルタリングモジュールで、DCT領域のソース画像の潜時特徴をフィルタリングし、DCTスペクトル帯域の異なるフィルタ画像特徴を、事前訓練された潜時拡散モデルに異なる制御信号として与える。
異なるDCTスペクトル帯の制御信号は、ソース画像とT2I生成画像とを異なる相関関係(例えば、スタイル、構造、レイアウト、輪郭など)で橋渡しし、スタイル誘導コンテンツ生成、画像意味操作、画像シーン翻訳、画像スタイル翻訳など、異なるI2I相関性を強調する汎用I2Iアプリケーションを実現する。
関連するアプローチとは違って、FCDiffusionは、推論時に異なる周波数制御ブランチを切り替えることによって、多様な画像翻訳タスクに適した統一されたテキスト誘導I2Iフレームワークを確立する。
テキスト誘導I2I法の有効性と優位性について,定性的かつ定量的に検討した。
コードはhttps://github.com/XiangGao1102/FCDiffusionで公開されている。
関連論文リスト
- UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - S2ST: Image-to-Image Translation in the Seed Space of Latent Diffusion [23.142097481682306]
複雑な画像におけるグローバルI2ITを実現するための新しいフレームワークであるS2STを紹介する。
S2STは遅延拡散モデルのシード空間内で動作し、後者が学習した強力な画像の先行処理を利用する。
S2STは、複雑な自動車シーンに対して、最先端のGANベースのI2IT手法、および拡散ベースのアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-11-30T18:59:49Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Dual Diffusion Implicit Bridges for Image-to-Image Translation [104.59371476415566]
画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。
本稿では拡散モデルに基づく画像変換法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。
DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
論文 参考訳(メタデータ) (2022-03-16T04:10:45Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z) - Multi-Channel Attention Selection GANs for Guided Image-to-Image
Translation [148.9985519929653]
本稿では,画像から画像への変換のためのマルチチャネルアテンション選択生成支援ネットワーク(SelectionGAN)を提案する。
提案するフレームワークとモジュールは統合されたソリューションであり、セマンティック画像合成などの他の生成タスクに応用できる。
論文 参考訳(メタデータ) (2020-02-03T23:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。