論文の概要: Training-Free Multi-Style Fusion Through Reference-Based Adaptive Modulation
- arxiv url: http://arxiv.org/abs/2509.18602v1
- Date: Tue, 23 Sep 2025 03:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.684725
- Title: Training-Free Multi-Style Fusion Through Reference-Based Adaptive Modulation
- Title(参考訳): 基準ベース適応変調による無訓練多段階核融合
- Authors: Xu Liu, Yibo Lu, Xinxian Wang, Xinyu Wu,
- Abstract要約: Adaptive Multi-Style Fusion (AMSF) は、拡散モデルにおける複数の参照スタイルの制御可能な融合を可能にするトレーニングフリーフレームワークである。
AMSFは、最先端のアプローチを一貫して上回るマルチスタイルの融合結果を生成する。
これらの能力は、AMSFを拡散モデルにおける表現力のあるマルチスタイル生成への実践的なステップと位置づけている。
- 参考スコア(独自算出の注目度): 10.053310365345412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Adaptive Multi-Style Fusion (AMSF), a reference-based training-free framework that enables controllable fusion of multiple reference styles in diffusion models. Most of the existing reference-based methods are limited by (a) acceptance of only one style image, thus prohibiting hybrid aesthetics and scalability to more styles, and (b) lack of a principled mechanism to balance several stylistic influences. AMSF mitigates these challenges by encoding all style images and textual hints with a semantic token decomposition module that is adaptively injected into every cross-attention layer of an frozen diffusion model. A similarity-aware re-weighting module then recalibrates, at each denoising step, the attention allocated to every style component, yielding balanced and user-controllable blends without any fine-tuning or external adapters. Both qualitative and quantitative evaluations show that AMSF produces multi-style fusion results that consistently outperform the state-of-the-art approaches, while its fusion design scales seamlessly to two or more styles. These capabilities position AMSF as a practical step toward expressive multi-style generation in diffusion models.
- Abstract(参考訳): 拡散モデルにおける複数の参照スタイルの制御可能な融合を可能にする参照ベーストレーニングフリーフレームワークであるAdaptive Multi-Style Fusion (AMSF)を提案する。
既存の参照ベースのメソッドのほとんどは制限されている。
(a)一つの様式のイメージのみを受け入れて、より多くのスタイルに対するハイブリッドな美学とスケーラビリティを禁止し、
(b)いくつかの様式的影響のバランスをとるための原則的メカニズムの欠如。
AMSFは、すべてのスタイルイメージとテキストヒントを、凍結拡散モデルのすべてのクロスアテンション層に適応的に注入されるセマンティックトークン分解モジュールで符号化することで、これらの課題を軽減する。
類似性を認識した再重み付けモジュールは、各デノイングステップにおいて、すべてのスタイルコンポーネントに注意を割り当て、微調整や外部アダプタを使わずにバランスよくユーザ制御可能なブレンドを生成する。
定性的かつ定量的な評価は、AMSFが複数のスタイルにシームレスにスケールする一方で、最先端のアプローチよりも一貫して優れたマルチスタイルの融合結果を生成することを示している。
これらの能力は、AMSFを拡散モデルにおける表現力のあるマルチスタイル生成への実践的なステップと位置づけている。
関連論文リスト
- Adding Additional Control to One-Step Diffusion with Joint Distribution Matching [58.37264951734603]
JDMは、画像-条件関節分布間の逆KL分散を最小化する新しいアプローチである。
トラクタブルな上限を導出することにより、JDMは条件学習から忠実度学習を分離する。
この非対称蒸留方式により,一段階の生徒が教師モデルに未知の制御を処理できるようになる。
論文 参考訳(メタデータ) (2025-03-09T15:06:50Z) - Conditional Controllable Image Fusion [56.4120974322286]
条件付き制御可能核融合(CCF)フレームワーク。
CCFは、実際には個々の個人に対して特定の核融合の制約を課している。
様々なシナリオにまたがる一般融合タスクにおける有効性を検証する実験。
論文 参考訳(メタデータ) (2024-11-03T13:56:15Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - No Re-Train, More Gain: Upgrading Backbones with Diffusion model for Pixel-Wise and Weakly-Supervised Few-Shot Segmentation [22.263029309151467]
Few-Shot (FSS) は、注釈付き画像のみを使用して、新しいクラスを分割することを目的としている。
現在のFSSメソッドでは、再トレーニングなしでのバックボーンアップグレードの柔軟性、さまざまなアノテーションを均一に扱うことができない、という3つの問題に直面している。
本稿では,FSSタスクを拡散過程を用いた条件生成問題として概念化する新しいフレームワークであるDiffUpを提案する。
論文 参考訳(メタデータ) (2024-07-23T05:09:07Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - ArtFusion: Controllable Arbitrary Style Transfer using Dual Conditional
Latent Diffusion Models [0.0]
Arbitrary Style Transfer (AST)は、任意のアートワークからスタイルを採用することで、イメージを変換することを目的としている。
我々は、コンテンツとスタイルの柔軟なバランスを提供する新しいアプローチ、ArtFusionを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:58:36Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。