論文の概要: Scheduled Style Injection: Expanding the Style-Content Pareto Frontier in Training-Free Diffusion-based Style Transfer
- arxiv url: http://arxiv.org/abs/2605.26538v1
- Date: Tue, 26 May 2026 04:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.668108
- Title: Scheduled Style Injection: Expanding the Style-Content Pareto Frontier in Training-Free Diffusion-based Style Transfer
- Title(参考訳): スケジューリングスタイルインジェクション:学習自由拡散型スタイルトランスファーにおけるスタイルコンテントパレートフロンティアの拡張
- Authors: Amey Sunil Kulkarni,
- Abstract要約: 事前学習拡散モデルによるスタイル伝達は急速に進んでいる。
モデルの中で、スタイルインジェクションはどこで最強になるべきか?
指導的なトレーニング不要なメソッドであるStyleIDは、すべてのレイヤとタイムステップに一様に単一のグローバルパラメータ(ガンマ)を使用する。
このトレードオフは必然的に厳格であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Style transfer with pre-trained diffusion models has advanced rapidly, but a core question remains underexplored: where in the model should style injection be strongest? StyleID, the leading training-free method, uses a single global parameter (gamma) uniformly across all layers and timesteps, which forces a fixed tradeoff between style quality and content preservation. We show this tradeoff is unnecessarily rigid. We systematically explore four dimensions of control: varying style injection strength across decoder layers, across denoising timesteps, and scheduling ControlNet geometric conditioning along both axes. The pattern is consistent everywhere: decreasing schedules, with stronger structural signal injection in shallower layers and earlier timesteps, reliably outperform the reverse. Beyond direction, schedule shape matters: cosine and square-root timestep schedules outperform linear. Most importantly, we find that gamma scheduling and ControlNet conditioning are nearly independent. The resulting combined configurations expand the Pareto frontier, offering superior tradeoffs between style fidelity and content preservation compared to any single baseline setting. Our best balanced configuration achieves ArtFID of 27.036 versus StyleID's 28.801 - a 6.1% relative improvement, with consistent gains across the full style-content tradeoff frontier. Results are validated across 35 configurations totaling over 28,000 stylized images using four complementary metrics. These findings generalize across SD backbones with identical rank ordering. All modifications are training-free, parameter-free, and require only a few lines of scheduling code; code is available at https://github.com/ameyskulkarni/scheduled_style_injection.
- Abstract(参考訳): 事前学習した拡散モデルによるスタイル伝達は急速に進んでいるが、中心的な疑問は未解決のままである。
指導的なトレーニングフリーな方法であるStyleIDは、すべてのレイヤとタイムステップに一様に1つのグローバルパラメータ(ガンマ)を使用し、スタイル品質とコンテンツ保存のトレードオフを固定する。
このトレードオフは必然的に厳格であることを示す。
制御の4次元を体系的に検討し、デコーダ層間でのスタイルインジェクション強度の変化、デノイングタイムステップ間のスタイルインジェクション強度の変化、および両軸に沿って幾何条件をスケジューリングする。
このパターンは至る所で一貫性があり、スケジュールを減らし、より浅い層でのより強い構造信号注入と、より早い時間ステップにより、裏面を確実に上回る。
方向を超えて、スケジュールの形状は重要:コサインと平方根のタイムステップのスケジュールは線形よりも優れています。
最も重要なことは、ガンマスケジューリングとControlNetコンディショニングがほぼ独立していることである。
結果として、パレート・フロンティアが拡張され、スタイルの忠実さとコンテンツ保存のトレードオフが、どのベースライン設定よりも優れている。
最もバランスの取れた設定では、ArtFIDの27.036とStyleIDの28.801 – 6.1%の相対的な改善を実現しています。
結果は、合計28,000以上のスタイリングされたイメージを4つの補完的なメトリクスを使って35の構成で検証する。
これらの所見はSD背骨に共通する順に一般化した。
コードはhttps://github.com/ameyskulkarni/scheduled_style_injectionで入手できる。
関連論文リスト
- VAGS: Velocity Adaptive Guidance Scale for Image Editing and Generation [15.19510801548845]
COCOフリーガイダンス(CFG)は、テキストセマンティクスがフローベースのサンプルをいかに動かせるかに関する主要な制御である。
本稿では,有界因子で名目規模を乗算する,トレーニング不要の代替案であるVAGSを提案する。
VAGSは、固定CFGと最近のトレーニングフリーガイダンスの変種に対して、構造的忠実度と生成品質を一貫して改善する。
論文 参考訳(メタデータ) (2026-05-15T06:32:49Z) - CGSTA: Cross-Scale Graph Contrast with Stability-Aware Alignment for Multivariate Time-Series Anomaly Detection [6.953121860419416]
時系列異常検出のためのCGSTAフレームワークを提案する。
DLGCは、各スライディングウィンドウに対する変数関係の局所的、局所的、大域的ビューを形成する。
SAAはスケールごとの安定した参照を維持し、現在のウィンドウの高速に変化するグラフを誘導してノイズを抑制する。
論文 参考訳(メタデータ) (2026-02-24T01:58:39Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - Dynamic Classifier-Free Diffusion Guidance via Online Feedback [53.54876309092376]
ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-19T16:27:19Z) - PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter [54.33433051500349]
本稿では,事前学習モデルのすべての層から順序付き特徴系列を構成するPMAを提案する。
また、異なる層にまたがって共有される幾何学制約ゲートプロンプトジェネレータ(G2PG)を提案する。
論文 参考訳(メタデータ) (2025-05-27T09:27:16Z) - Towards Synchronous Memorizability and Generalizability with Site-Modulated Diffusion Replay for Cross-Site Continual Segmentation [50.70671908078593]
本稿では,同期記憶可能性と一般化可能性(SMG-Learning)に学ぶ新しい学習パラダイムを提案する。
我々は,過去の地点での記憶可能性を確保するために方位勾配アライメントと,目に見えない地点での一般化性を高めるために任意の勾配アライメントを作成する。
実験により,本手法は,他の最先端手法よりも,記憶可能性と一般性の両方を効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-26T03:10:57Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。
提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-04-04T16:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。