論文の概要: Attention Distillation: A Unified Approach to Visual Characteristics Transfer
- arxiv url: http://arxiv.org/abs/2502.20235v1
- Date: Thu, 27 Feb 2025 16:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:17.133831
- Title: Attention Distillation: A Unified Approach to Visual Characteristics Transfer
- Title(参考訳): 注意蒸留 : 視覚的特徴伝達への統一的アプローチ
- Authors: Yang Zhou, Xu Gao, Zichong Chen, Hui Huang,
- Abstract要約: 我々は、事前学習した拡散ネットワークからの自己注意機能を利用して、生成した画像への参照から視覚的特徴を伝達する。
次に,注意損失をデノジングサンプリングプロセスに統合する改良型ガイダンスを提案する。
実験では, サンプルのスタイル, 外観, テクスチャを合成中の新しい画像に転送する際の, アプローチの異常な性能を実証した。
- 参考スコア(独自算出の注目度): 11.21702103108907
- License:
- Abstract: Recent advances in generative diffusion models have shown a notable inherent understanding of image style and semantics. In this paper, we leverage the self-attention features from pretrained diffusion networks to transfer the visual characteristics from a reference to generated images. Unlike previous work that uses these features as plug-and-play attributes, we propose a novel attention distillation loss calculated between the ideal and current stylization results, based on which we optimize the synthesized image via backpropagation in latent space. Next, we propose an improved Classifier Guidance that integrates attention distillation loss into the denoising sampling process, further accelerating the synthesis and enabling a broad range of image generation applications. Extensive experiments have demonstrated the extraordinary performance of our approach in transferring the examples' style, appearance, and texture to new images in synthesis. Code is available at https://github.com/xugao97/AttentionDistillation.
- Abstract(参考訳): 生成拡散モデルの最近の進歩は、画像スタイルと意味論の顕著な固有の理解を示している。
本稿では,事前学習した拡散ネットワークからの自己意図的特徴を利用して,参照画像から生成画像へ視覚的特徴を伝達する。
これらの特徴をプラグ・アンド・プレイ属性として用いた従来の研究とは違って,本研究では,遅延空間のバックプロパゲーションによる合成画像の最適化に基づいて,理想と現在のスタイライズ結果の間で計算された新たな注意蒸留損失を提案する。
次に,注目蒸留損失をデノナイジングサンプリングプロセスに統合し,さらに合成を加速し,幅広い画像生成アプリケーションを可能にする改良された分類誘導手法を提案する。
大規模な実験により, サンプルのスタイル, 外観, テクスチャを新しい画像に変換する手法の異常な性能が実証された。
コードはhttps://github.com/xugao97/AttentionDistillation.comで公開されている。
関連論文リスト
- HUPE: Heuristic Underwater Perceptual Enhancement with Semantic Collaborative Learning [62.264673293638175]
既存の水中画像強調法は主に視覚的品質の向上に重点を置いており、実際的な意味を見落としている。
視覚的品質を高め,他の下流タスクに対処する柔軟性を示す,水中知覚向上のための可逆的ネットワークHを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:37:03Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - DiffLoss: unleashing diffusion model as constraint for training image restoration network [4.8677910801584385]
我々はDiffLossと呼ばれる画像復元ネットワークのトレーニングを支援するために拡散モデルを暗黙的に活用する新しい視点を導入する。
これら2つの設計を組み合わせることで、全体的な損失関数は画像復元の知覚的品質を改善することができ、視覚的に快く、意味的に強化された結果をもたらす。
論文 参考訳(メタデータ) (2024-06-27T09:33:24Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。