論文の概要: HAM: A Training-Free Style Transfer Approach via Heterogeneous Attention Modulation for Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.24043v1
- Date: Wed, 25 Mar 2026 07:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.194932
- Title: HAM: A Training-Free Style Transfer Approach via Heterogeneous Attention Modulation for Diffusion Models
- Title(参考訳): HAM:拡散モデルのための不均一注意変調による学習自由なスタイル伝達手法
- Authors: Yeqi He, Liang Li, Zhiwen Yang, Xichun Sheng, Zhidong Zhao, Chenggang Yan,
- Abstract要約: 本稿では,textbfh$eterogeneous $textbfa$ttentionによる学習不要なスタイル転送手法を提案する。
拡散過程では、グローバルアテンションレギュレーション(GAR)や局所アテンション移植(LAT)など、さまざまな注意機構にHAMを革新的に採用している。
提案手法は, 定性的かつ定量的な一連の実験を通じて検証され, 複数の定量測定値に対する最先端性能を実現する。
- 参考スコア(独自算出の注目度): 22.24377615990115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated remarkable performance in image generation, particularly within the domain of style transfer. Prevailing style transfer approaches typically leverage pre-trained diffusion models' robust feature extraction capabilities alongside external modular control pathways to explicitly impose style guidance signals. However, these methods often fail to capture complex style reference or retain the identity of user-provided content images, thus falling into the trap of style-content balance. Thus, we propose a training-free style transfer approach via $\textbf{h}$eterogeneous $\textbf{a}$ttention $\textbf{m}$odulation ($\textbf{HAM}$) to protect identity information during image/text-guided style reference transfer, thereby addressing the style-content trade-off challenge. Specifically, we first introduces style noise initialization to initialize latent noise for diffusion. Then, during the diffusion process, it innovatively employs HAM for different attention mechanisms, including Global Attention Regulation (GAR) and Local Attention Transplantation (LAT), which better preserving the details of the content image while capturing complex style references. Our approach is validated through a series of qualitative and quantitative experiments, achieving state-of-the-art performance on multiple quantitative metrics.
- Abstract(参考訳): 拡散モデルは、特にスタイル転送の領域において、画像生成において顕著な性能を示した。
一般的なスタイル転送アプローチは、通常、事前訓練された拡散モデルの頑健な特徴抽出機能と、外部モジュール制御経路を併用して、スタイル誘導信号を明示的に付与する。
しかし、これらの手法は、複雑なスタイル参照をキャプチャしたり、ユーザが提供するコンテンツイメージのアイデンティティを保持できない場合が多いため、スタイル-コンテンツバランスの罠に陥る。
そこで本稿では, 画像/テキスト誘導型参照転送において, 識別情報を保護するために, $\textbf{h}$eterogeneous $\textbf{a}$ttention $\textbf{m}$odulation$\textbf{HAM}$) を用いたトレーニングフリーなスタイル転送手法を提案する。
具体的には、拡散のための遅延雑音を初期化するためのスタイルノイズ初期化を導入する。
そして、拡散過程において、HAMをGAR(Global Attention Regulation)やLAT(Local Attention Transplantation)など様々な注意機構に革新的に採用し、複雑なスタイルの参照をキャプチャしながらコンテンツイメージの詳細を保存している。
提案手法は, 定性的かつ定量的な一連の実験を通じて検証され, 複数の定量測定値に対する最先端性能を実現する。
関連論文リスト
- Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文 参考訳(メタデータ) (2026-01-10T16:01:14Z) - AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models [4.364797586362505]
AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。
本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。
また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
論文 参考訳(メタデータ) (2025-03-10T13:28:36Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DiffStyler: Diffusion-based Localized Image Style Transfer [0.0]
画像スタイル転送は、色、ブラシストローク、形状など、スタイルターゲットの特徴的な特性を持つデジタルイメージを埋め込むことを目的としている。
任意のスタイル転送手法の進歩にもかかわらず、コンテンツセマンティクスとスタイル属性の微妙な均衡は依然として大きな課題である。
本稿ではDiffStylerについて紹介する。DiffStylerは、任意の画像スタイルの効率的な転送を容易にする新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-27T11:19:34Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer [19.355744690301403]
本研究では,事前学習した大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-11T09:53:12Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。