論文の概要: Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion
- arxiv url: http://arxiv.org/abs/2501.14524v2
- Date: Fri, 04 Apr 2025 09:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:46:07.817700
- Title: Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion
- Title(参考訳): 安定拡散におけるU-Netスリップ接続の活用による学習自由スタイルとコンテンツ伝達
- Authors: Ludovica Schaerf, Andrea Alfarano, Fabrizio Silvestri, Leonardo Impett,
- Abstract要約: 本研究では,第3エンコーダブロックが通過する残差接続が,再構成画像の空間情報の大部分を担っていることを示す。
このブロックから表現を注入することは、テキストベースの編集、正確な修正、スタイル転送に利用できることを示す。
- 参考スコア(独自算出の注目度): 4.748336065254026
- License:
- Abstract: Recent advances in diffusion models for image generation have led to detailed examinations of several components within the U-Net architecture for image editing. While previous studies have focused on the bottleneck layer (h-space), cross-attention, self-attention, and decoding layers, the overall role of the skip connections of the U-Net itself has not been specifically addressed. We conduct thorough analyses on the role of the skip connections and find that the residual connections passed by the third encoder block carry most of the spatial information of the reconstructed image, splitting the content from the style, passed by the remaining stream in the opposed decoding layer. We show that injecting the representations from this block can be used for text-based editing, precise modifications, and style transfer. We compare our method, SkipInject, to state-of-the-art style transfer and image editing methods and demonstrate that our method obtains the best content alignment and optimal structural preservation tradeoff.
- Abstract(参考訳): 画像生成のための拡散モデルの最近の進歩は、画像編集のためのU-Netアーキテクチャ内のいくつかのコンポーネントの詳細な検討につながっている。
これまでの研究では、ボトルネック層(h-space)、クロスアテンション、自己アテンション、デコード層に重点を置いてきたが、U-Net自体のスキップ接続の全体的な役割は具体的には解決されていない。
我々は、スキップ接続の役割を徹底的に解析し、第3エンコーダブロックが通過した残接続が、再構成された画像の空間情報の大部分を担い、その内容が、反対の復号層で残りのストリームに渡されるスタイルから分離されていることを確認する。
このブロックから表現を注入することは、テキストベースの編集、正確な修正、スタイル転送に利用できることを示す。
我々は,SkipInject法と最先端のスタイル転送および画像編集法を比較し,最適なコンテンツアライメントと最適な構造保存トレードオフが得られることを示す。
関連論文リスト
- UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統合フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - Puff-Net: Efficient Style Transfer with Pure Content and Style Feature Fusion Network [32.12413686394824]
スタイル転送は、オリジナルの構造を維持しながら、スタイルイメージの芸術的な特徴で画像をレンダリングすることを目的としている。
CNNベースの手法では、入力画像間の大域的情報と長距離依存関係を扱うことは困難である。
我々はPuff-Netと呼ばれる新しいネットワーク、すなわち純粋コンテンツとスタイルの機能融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T07:41:07Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - UMFA: A photorealistic style transfer method based on U-Net and
multi-layer feature aggregation [0.0]
本稿では,フォトリアリスティックなイメージスタイリングの自然な効果を強調するために,フォトリアリスティックなスタイル転送ネットワークを提案する。
特に、高密度ブロックに基づくエンコーダとU-Netの対称構造を形成するデコーダとを連立して、効率的な特徴抽出と画像再構成を実現する。
論文 参考訳(メタデータ) (2021-08-13T08:06:29Z) - Arbitrary Video Style Transfer via Multi-Channel Correlation [84.75377967652753]
本稿では,マルチチャネル補正ネットワーク(MCCNet)を提案する。
MCCNetは、スタイルとコンテンツドメインの機能空間で直接動作する。
MCCが生成した出力は所望のスタイルパターンを含む特徴であり、鮮やかなスタイルのテクスチャでさらに画像にデコードできる。
論文 参考訳(メタデータ) (2020-09-17T01:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。