Fugu-MT 論文翻訳(概要): Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion

論文の概要: Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion

arxiv url: http://arxiv.org/abs/2501.14524v2
Date: Fri, 04 Apr 2025 09:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-07 19:41:15.718313
Title: Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion
Title（参考訳）: 安定拡散におけるU-Netスリップ接続の活用による学習自由スタイルとコンテンツ伝達
Authors: Ludovica Schaerf, Andrea Alfarano, Fabrizio Silvestri, Leonardo Impett,
Abstract要約: 本研究では,第3エンコーダブロックが通過する残差接続が,再構成画像の空間情報の大部分を担っていることを示す。このブロックから表現を注入することは、テキストベースの編集、正確な修正、スタイル転送に利用できることを示す。
参考スコア（独自算出の注目度）: 4.748336065254026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in diffusion models for image generation have led to detailed examinations of several components within the U-Net architecture for image editing. While previous studies have focused on the bottleneck layer (h-space), cross-attention, self-attention, and decoding layers, the overall role of the skip connections of the U-Net itself has not been specifically addressed. We conduct thorough analyses on the role of the skip connections and find that the residual connections passed by the third encoder block carry most of the spatial information of the reconstructed image, splitting the content from the style, passed by the remaining stream in the opposed decoding layer. We show that injecting the representations from this block can be used for text-based editing, precise modifications, and style transfer. We compare our method, SkipInject, to state-of-the-art style transfer and image editing methods and demonstrate that our method obtains the best content alignment and optimal structural preservation tradeoff.
Abstract（参考訳）: 画像生成のための拡散モデルの最近の進歩は、画像編集のためのU-Netアーキテクチャ内のいくつかのコンポーネントの詳細な検討につながっている。これまでの研究では、ボトルネック層(h-space)、クロスアテンション、自己アテンション、デコード層に重点を置いてきたが、U-Net自体のスキップ接続の全体的な役割は具体的には解決されていない。我々は、スキップ接続の役割を徹底的に解析し、第3エンコーダブロックが通過した残接続が、再構成された画像の空間情報の大部分を担い、その内容が、反対の復号層で残りのストリームに渡されるスタイルから分離されていることを確認する。このブロックから表現を注入することは、テキストベースの編集、正確な修正、スタイル転送に利用できることを示す。我々は,SkipInject法と最先端のスタイル転送および画像編集法を比較し,最適なコンテンツアライメントと最適な構造保存トレードオフが得られることを示す。

関連論文リスト

VINCIE: Unlocking In-context Image Editing from Video [62.88977098700917]
本研究では,ビデオからテキスト内画像編集モデルを直接学習できるかどうかを考察する。このデータから効果的に学習するために、3つのプロキシタスクに基づいて訓練されたブロック因果拡散変換器を設計する。本モデルでは,2つのマルチターン画像編集ベンチマークにおいて,コンテクスト内画像編集能力が強く,最先端の結果が得られている。
論文参考訳（メタデータ） (2025-06-12T17:46:54Z)
Inversion-Free Video Style Transfer with Trajectory Reset Attention Control and Content-Style Bridging [5.501345898413532]
我々は,高品質なスタイル転送を可能にする新しい手法であるTRAC(Trajectory Reset Attention Control)を導入する。 TRACは、遅延軌跡をリセットし、注意制御を強制することにより、コンテントの一貫性を高める。画像とビデオの両方の転送に対して,安定的でフレキシブルで効率的なソリューションを提供する,チューニング不要なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-10T14:18:43Z)
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文参考訳（メタデータ） (2025-02-25T16:57:04Z)
UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統合フレームワークUniVSTを提案する。トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文参考訳（メタデータ） (2024-10-26T05:28:02Z)
DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文参考訳（メタデータ） (2024-10-19T06:42:43Z)
Puff-Net: Efficient Style Transfer with Pure Content and Style Feature Fusion Network [32.12413686394824]
スタイル転送は、オリジナルの構造を維持しながら、スタイルイメージの芸術的な特徴で画像をレンダリングすることを目的としている。 CNNベースの手法では、入力画像間の大域的情報と長距離依存関係を扱うことは困難である。我々はPuff-Netと呼ばれる新しいネットワーク、すなわち純粋コンテンツとスタイルの機能融合ネットワークを提案する。
論文参考訳（メタデータ） (2024-05-30T07:41:07Z)
CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文参考訳（メタデータ） (2023-11-24T17:55:10Z)
Textual and Visual Prompt Fusion for Image Editing via Step-Wise Alignment [10.82748329166797]
本研究では,生成した視覚的参照とテキストガイダンスを融合したフレームワークを提案する。私たちのフレームワークは、小さなニューラルネットワークのみを使用して、テキストプロンプトによって直感的に駆動される多様なコンテンツや属性を制御する。
論文参考訳（メタデータ） (2023-08-30T08:40:15Z)
LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-30T01:26:41Z)
Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence [88.00004819064672]
Diffusion Hyperfeaturesは、マルチスケールおよびマルチタイムステップの機能マップをピクセル単位の機能記述子に統合するためのフレームワークである。提案手法は,SPair-71k実画像ベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2023-05-23T17:58:05Z)
Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文参考訳（メタデータ） (2023-02-06T18:50:23Z)
DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文参考訳（メタデータ） (2022-11-19T12:30:44Z)
Diffusion-based Image Translation using Disentangled Style and Content Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。逆拡散中、画像の原内容を維持することはしばしば困難である。本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-30T06:44:37Z)
UMFA: A photorealistic style transfer method based on U-Net and multi-layer feature aggregation [0.0]
本稿では,フォトリアリスティックなイメージスタイリングの自然な効果を強調するために,フォトリアリスティックなスタイル転送ネットワークを提案する。特に、高密度ブロックに基づくエンコーダとU-Netの対称構造を形成するデコーダとを連立して、効率的な特徴抽出と画像再構成を実現する。
論文参考訳（メタデータ） (2021-08-13T08:06:29Z)
StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文参考訳（メタデータ） (2021-05-30T15:57:09Z)
Arbitrary Video Style Transfer via Multi-Channel Correlation [84.75377967652753]
本稿では,マルチチャネル補正ネットワーク(MCCNet)を提案する。 MCCNetは、スタイルとコンテンツドメインの機能空間で直接動作する。 MCCが生成した出力は所望のスタイルパターンを含む特徴であり、鮮やかなスタイルのテクスチャでさらに画像にデコードできる。
論文参考訳（メタデータ） (2020-09-17T01:30:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。