論文の概要: DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer
- arxiv url: http://arxiv.org/abs/2410.15007v1
- Date: Sat, 19 Oct 2024 06:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:59.756676
- Title: DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer
- Title(参考訳): DiffuseST: スタイル転送のための拡散モデルの能力開放
- Authors: Ying Hu, Chenyi Zhuang, Pan Gao,
- Abstract要約: スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
- 参考スコア(独自算出の注目度): 13.588643982359413
- License:
- Abstract: Style transfer aims to fuse the artistic representation of a style image with the structural information of a content image. Existing methods train specific networks or utilize pre-trained models to learn content and style features. However, they rely solely on textual or spatial representations that are inadequate to achieve the balance between content and style. In this work, we propose a novel and training-free approach for style transfer, combining textual embedding with spatial features and separating the injection of content or style. Specifically, we adopt the BLIP-2 encoder to extract the textual representation of the style image. We utilize the DDIM inversion technique to extract intermediate embeddings in content and style branches as spatial features. Finally, we harness the step-by-step property of diffusion models by separating the injection of content and style in the target branch, which improves the balance between content preservation and style fusion. Various experiments have demonstrated the effectiveness and robustness of our proposed DiffeseST for achieving balanced and controllable style transfer results, as well as the potential to extend to other tasks.
- Abstract(参考訳): スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
しかし、内容と様式のバランスをとるのに不十分なテキスト表現や空間表現にのみ依存する。
本研究では,テキストの埋め込みを空間的特徴と組み合わせ,コンテンツやスタイルの注入を分離する,新しい,学習不要なスタイル伝達手法を提案する。
具体的には、BLIP-2エンコーダを用いて、スタイル画像のテキスト表現を抽出する。
DDIMインバージョン技術を用いて,コンテンツとスタイルブランチの中間埋め込みを空間的特徴として抽出する。
最後に, 拡散モデルのステップ・バイ・ステップ特性を利用して, コンテンツ保存とスタイル融合のバランスを改善するために, ターゲットブランチにおけるコンテンツとスタイルの注入を分離する。
各種実験により,バランスのとれた,制御可能なスタイルの転送結果を実現するためのDiffeseSTの有効性とロバスト性を実証し,他のタスクに拡張する可能性を示した。
関連論文リスト
- AEANet: Affinity Enhanced Attentional Networks for Arbitrary Style Transfer [4.639424509503966]
合理的な学術研究とエモーティブな芸術的創造を組み合わせた研究分野。
対象の芸術的スタイルに従ってコンテンツイメージから新たなイメージを作成し、コンテンツのテクスチャ構造情報を維持することを目的としている。
既存のスタイル転送方式は、スタイル変換時のコンテンツ画像のテクスチャ線を著しく損なうことが多い。
本稿では,コンテンツ親和性強調モジュール(CAEA),スタイル親和性強調モジュール(SAEA),ハイブリッド親和性強調モジュール(HA)を含む親和性強調ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:39:11Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DiffStyler: Diffusion-based Localized Image Style Transfer [0.0]
画像スタイル転送は、色、ブラシストローク、形状など、スタイルターゲットの特徴的な特性を持つデジタルイメージを埋め込むことを目的としている。
任意のスタイル転送手法の進歩にもかかわらず、コンテンツセマンティクスとスタイル属性の微妙な均衡は依然として大きな課題である。
本稿ではDiffStylerについて紹介する。DiffStylerは、任意の画像スタイルの効率的な転送を容易にする新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-27T11:19:34Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。