論文の概要: Diffusion-based Image Translation using Disentangled Style and Content
Representation
- arxiv url: http://arxiv.org/abs/2209.15264v1
- Date: Fri, 30 Sep 2022 06:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:54:12.069981
- Title: Diffusion-based Image Translation using Disentangled Style and Content
Representation
- Title(参考訳): disentangled style と content representation を用いた拡散に基づく画像翻訳
- Authors: Gihyun Kwon, Jong Chul Ye
- Abstract要約: セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 51.188396199083336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based image translation guided by semantic texts or a single target
image has enabled flexible style transfer which is not limited to the specific
domains. Unfortunately, due to the stochastic nature of diffusion models, it is
often difficult to maintain the original content of the image during the
reverse diffusion. To address this, here we present a novel diffusion-based
unsupervised image translation method using disentangled style and content
representation.
Specifically, inspired by the splicing Vision Transformer, we extract
intermediate keys of multihead self attention layer from ViT model and used
them as the content preservation loss. Then, an image guided style transfer is
performed by matching the [CLS] classification token from the denoised samples
and target image, whereas additional CLIP loss is used for the text-driven
style transfer. To further accelerate the semantic change during the reverse
diffusion, we also propose a novel semantic divergence loss and resampling
strategy. Our experimental results show that the proposed method outperforms
state-of-the-art baseline models in both text-guided and image-guided
translation tasks.
- Abstract(参考訳): セマンティックテキストや単一のターゲット画像でガイドされた拡散に基づく画像変換は、特定のドメインに限定されない柔軟なスタイル転送を可能にしている。
残念なことに、拡散モデルの確率的性質のため、逆拡散中の画像の原内容を維持することはしばしば困難である。
そこで本稿では,不連続スタイルとコンテンツ表現を用いた拡散に基づく非教師なし画像翻訳手法を提案する。
具体的には,spllicing vision transformerに触発されて,vitモデルからマルチヘッド自己注意層の中間キーを抽出し,コンテンツ保存損失として用いた。
次に、識別されたサンプルとターゲット画像から[CLS]分類トークンをマッチングして画像案内スタイル転送を行い、テキスト駆動スタイル転送には追加のCLIP損失を用いる。
また,逆拡散時の意味変化をさらに促進するために,新たな意味分散損失と再サンプリング戦略を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
関連論文リスト
- StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation [18.213286385769525]
CycleGANベースの手法は、生成した画像のミスマッチした情報を隠して、サイクル一貫性の目的をバイパスすることが知られている。
本稿では,ステガノグラフィーを利用した新しいモデルであるStegoGANを紹介した。
我々のアプローチは、追加の後処理や監督を必要とすることなく、翻訳画像のセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2024-03-29T12:23:58Z) - Diffusion-based Image Translation with Label Guidance for Domain
Adaptive Semantic Segmentation [35.44771460784343]
ターゲットモデル学習のためのソースドメインからターゲットドメインへの変換は、ドメイン適応セマンティックセグメンテーション(DASS)において最も一般的な戦略の1つである。
既存の方法は、元の画像と翻訳された画像の間の意味的に一貫性のある局所的な詳細を保存するのに依然として苦労している。
本稿では、画像翻訳中にソースドメインラベルを明示的なガイダンスとして用いることにより、この問題に対処する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T18:01:01Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。
本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文 参考訳(メタデータ) (2023-03-15T13:47:02Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。