論文の概要: Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer
- arxiv url: http://arxiv.org/abs/2303.08622v1
- Date: Wed, 15 Mar 2023 13:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:43:06.477463
- Title: Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer
- Title(参考訳): テキスト誘導拡散画像スタイル転送のためのゼロショットコントラスト損失
- Authors: Serin Yang, Hyunmin Hwang, Jong Chul Ye
- Abstract要約: 我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。
本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
- 参考スコア(独自算出の注目度): 38.957512116073616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown great promise in text-guided image style
transfer, but there is a trade-off between style transformation and content
preservation due to their stochastic nature. Existing methods require
computationally expensive fine-tuning of diffusion models or additional neural
network. To address this, here we propose a zero-shot contrastive loss for
diffusion models that doesn't require additional fine-tuning or auxiliary
networks. By leveraging patch-wise contrastive loss between generated samples
and original image embeddings in the pre-trained diffusion model, our method
can generate images with the same semantic content as the source image in a
zero-shot manner. Our approach outperforms existing methods while preserving
content and requiring no additional training, not only for image style transfer
but also for image-to-image translation and manipulation. Our experimental
results validate the effectiveness of our proposed method.
- Abstract(参考訳): 拡散モデルはテキスト誘導型画像スタイル転送において大きな可能性を示しているが、その確率的な性質から、スタイル変換とコンテンツ保存のトレードオフがある。
既存の方法は、拡散モデルや追加のニューラルネットワークの計算コストのかかる微調整を必要とする。
そこで本研究では,追加の微調整や補助ネットワークを必要としない拡散モデルに対するゼロショットコントラスト損失を提案する。
予め訓練した拡散モデルにおいて,生成したサンプルとオリジナル画像の埋め込みのパッチワイド・コントラストの損失を利用して,ゼロショットでソース画像と同じ意味的内容の画像を生成できる。
提案手法は,画像のスタイル変換だけでなく,画像から画像への翻訳や操作においても,既存の手法よりも優れており,追加のトレーニングも必要としない。
提案手法の有効性を実験的に検証した。
関連論文リスト
- ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer [19.355744690301403]
本研究では,事前学習した大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-11T09:53:12Z) - Improving the Transferability of Adversarial Examples with Arbitrary
Style Transfer [32.644062141738246]
スタイル転送ネットワークは、人間の意味的内容を保持しながら、画像内の低レベルの視覚的特徴の分布を変更することができる。
本稿では、任意のスタイル転送ネットワークを用いて、画像を異なる領域に変換する新たな攻撃手法であるStyle Transfer Method (STM)を提案する。
提案手法は、通常訓練されたモデルまたは逆訓練されたモデルにおいて、逆変換性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-08-21T09:58:13Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。