論文の概要: Harnessing the Latent Diffusion Model for Training-Free Image Style Transfer
- arxiv url: http://arxiv.org/abs/2410.01366v1
- Date: Wed, 2 Oct 2024 09:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:29:22.034629
- Title: Harnessing the Latent Diffusion Model for Training-Free Image Style Transfer
- Title(参考訳): 学習自由な画像スタイル伝達のための潜時拡散モデルの有用性
- Authors: Kento Masui, Mayu Otani, Masahiro Nomura, Hideki Nakayama,
- Abstract要約: スタイル転送タスクは、スタイルイメージの視覚的属性を他のコンテンツイメージに転送する課題の1つである。
我々は、事前訓練された潜在拡散モデル(LDM)のための学習不要なスタイル伝達アルゴリズム、スタイルトラッキング逆拡散プロセス(STRDP)を提案する。
本アルゴリズムは, LDMの逆拡散過程において, 適応インスタンス正規化(AdaIN)関数を異なる方法で適用する。
- 参考スコア(独自算出の注目度): 24.46409405016844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently shown the ability to generate high-quality images. However, controlling its generation process still poses challenges. The image style transfer task is one of those challenges that transfers the visual attributes of a style image to another content image. Typical obstacle of this task is the requirement of additional training of a pre-trained model. We propose a training-free style transfer algorithm, Style Tracking Reverse Diffusion Process (STRDP) for a pretrained Latent Diffusion Model (LDM). Our algorithm employs Adaptive Instance Normalization (AdaIN) function in a distinct manner during the reverse diffusion process of an LDM while tracking the encoding history of the style image. This algorithm enables style transfer in the latent space of LDM for reduced computational cost, and provides compatibility for various LDM models. Through a series of experiments and a user study, we show that our method can quickly transfer the style of an image without additional training. The speed, compatibility, and training-free aspect of our algorithm facilitates agile experiments with combinations of styles and LDMs for extensive application.
- Abstract(参考訳): 拡散モデルは、最近、高品質な画像を生成する能力を示した。
しかし、生成過程の制御は依然として課題となっている。
イメージスタイル転送タスクは、スタイルイメージの視覚特性を他のコンテンツイメージに転送する課題の1つである。
このタスクの典型的な障害は、事前訓練されたモデルの追加トレーニングの必要性である。
本研究では,事前学習した潜在拡散モデル(LDM)に対して,学習不要なスタイル伝達アルゴリズムであるスタイルトラッキング逆拡散プロセス(STRDP)を提案する。
本アルゴリズムでは,LDMの逆拡散過程において,スタイル画像の符号化履歴を追跡しながら,適応インスタンス正規化(AdaIN)関数を異なる方法で適用する。
このアルゴリズムは、計算コストの削減のために、LDMの潜在空間におけるスタイル転送を可能にし、様々なLDMモデルの互換性を提供する。
本手法は,一連の実験とユーザスタディを通じて,追加の訓練を伴わずに画像のスタイルを素早く転送できることを示す。
アルゴリズムのスピード、互換性、トレーニングなしの側面は、広範なアプリケーションのためのスタイルとLCMの組み合わせによるアジャイル実験を促進する。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - FISTNet: FusIon of STyle-path generative Networks for Facial Style Transfer [15.308837341075135]
StyleGAN法は、顔画像にアーティファクトが導入された結果、過度に適合する傾向にある。
本稿では,事前学習したマルチパス方式の転送ネットワークを利用する顔画像のためのFusIon of STyles(FIST)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T07:20:31Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。
本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文 参考訳(メタデータ) (2023-03-15T13:47:02Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - SinDDM: A Single Image Denoising Diffusion Model [28.51951207066209]
単一画像上でのデノナイズ拡散モデルをトレーニングするためのフレームワークを提案する。
SinDDMを作成した本手法では,マルチスケール拡散プロセスを用いてトレーニング画像の内部統計を学習する。
これは、スタイル転送や調和など、幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2022-11-29T20:44:25Z) - Controllable Style Transfer via Test-time Training of Implicit Neural
Representation [34.880651923701066]
Indicit Neural Representationに基づく制御可能なスタイル転送フレームワークを提案する。
テストタイムを一度トレーニングした後、INRベースのモデルの柔軟性により、我々のフレームワークは、スタイリングされた画像をピクセル単位で正確に制御し、さらなる最適化やトレーニングをすることなく、画像の解像度を自由に調整できる。
論文 参考訳(メタデータ) (2022-10-14T12:53:39Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。