論文の概要: AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.07307v1
- Date: Mon, 10 Mar 2025 13:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:46.385209
- Title: AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models
- Title(参考訳): AttenST: 事前学習拡散モデルによるトレーニング不要な注意駆動型スタイル転送フレームワーク
- Authors: Bo Huang, Wenlun Xu, Qizhuo Han, Haodong Jing, Ying Li,
- Abstract要約: AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。
本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。
また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
- 参考スコア(独自算出の注目度): 4.364797586362505
- License:
- Abstract: While diffusion models have achieved remarkable progress in style transfer tasks, existing methods typically rely on fine-tuning or optimizing pre-trained models during inference, leading to high computational costs and challenges in balancing content preservation with style integration. To address these limitations, we introduce AttenST, a training-free attention-driven style transfer framework. Specifically, we propose a style-guided self-attention mechanism that conditions self-attention on the reference style by retaining the query of the content image while substituting its key and value with those from the style image, enabling effective style feature integration. To mitigate style information loss during inversion, we introduce a style-preserving inversion strategy that refines inversion accuracy through multiple resampling steps. Additionally, we propose a content-aware adaptive instance normalization, which integrates content statistics into the normalization process to optimize style fusion while mitigating the content degradation. Furthermore, we introduce a dual-feature cross-attention mechanism to fuse content and style features, ensuring a harmonious synthesis of structural fidelity and stylistic expression. Extensive experiments demonstrate that AttenST outperforms existing methods, achieving state-of-the-art performance in style transfer dataset.
- Abstract(参考訳): 拡散モデルはスタイル伝達タスクにおいて顕著な進歩を遂げてきたが、既存の手法は推論中に訓練済みモデルの微調整や最適化に依存しており、高い計算コストとコンテンツ保存とスタイル統合のバランスをとる上での課題につながっている。
これらの制限に対処するため、トレーニングフリーの注目駆動型スタイル転送フレームワークであるAttenSTを紹介した。
具体的には、コンテンツイメージのクエリを保持しながら、そのキーと値をスタイルイメージの値に置換することで、参照スタイルに自己アテンションを設定できるスタイル誘導型自己アテンション機構を提案し、効果的なスタイル機能統合を実現する。
インバージョン中のスタイル情報損失を軽減するために,複数の再サンプリングステップを通じてインバージョン精度を向上するスタイル保存型インバージョン戦略を導入する。
さらに、コンテンツ統計を正規化プロセスに統合し、コンテンツ劣化を軽減しつつ、スタイル融合を最適化するコンテンツ対応型適応型インスタンス正規化を提案する。
さらに、コンテンツとスタイルの特徴を融合させ、構造的忠実さとスタイリスティックな表現の調和した合成を保証するために、二重機能的クロスアテンション機構を導入する。
大規模な実験により、AtenSTは既存のメソッドよりも優れており、スタイル転送データセットにおける最先端のパフォーマンスを実現している。
関連論文リスト
- HSI: A Holistic Style Injector for Arbitrary Style Transfer [8.47567292281412]
Holistic Style (HSI) は、ターゲットスタイルの芸術的表現を提供する新しいアテンションスタイル変換モジュールである。
HSIは、スタイル転送の特徴とより一致したグローバルなスタイル表現のみに基づいてスタイリゼーションを行う。
提案手法は, 有効性と効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-05T09:36:24Z) - StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture [29.178246094092202]
スタイル転送は、スタイルソースの芸術的表現ではなく、コンテンツを保存する新しいイメージを生成することを目的としている。
既存の手法の多くはトランスフォーマーや拡散モデルに基づいているが、2次計算の複雑さと高い推論時間に悩まされている。
本稿では,メモリ使用量と線形時間複雑性を制限した高品質なスタイル転送を実現するための新しいフレームワークであるStyleRWKVを提案する。
論文 参考訳(メタデータ) (2024-12-27T09:01:15Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統合フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - Style Injection in Diffusion: A Training-free Approach for Adapting Large-scale Diffusion Models for Style Transfer [19.355744690301403]
本研究では,事前学習した大規模拡散モデルに基づく新たな芸術的スタイル伝達手法を提案する。
実験の結果,提案手法は従来の手法と拡散型方式の両方で最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-12-11T09:53:12Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Parameter-Free Style Projection for Arbitrary Style Transfer [64.06126075460722]
本稿では,パラメータフリー,高速,効果的なコンテンツスタイル変換のための特徴レベル変換手法であるStyle Projectionを提案する。
本稿では、任意の画像スタイルの転送にスタイル投影を利用するリアルタイムフィードフォワードモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T13:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。