論文の概要: FREE-Switch: Frequency-based Dynamic LoRA Switch for Style Transfer
- arxiv url: http://arxiv.org/abs/2604.10023v1
- Date: Sat, 11 Apr 2026 04:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.796513
- Title: FREE-Switch: Frequency-based Dynamic LoRA Switch for Style Transfer
- Title(参考訳): FREE-Switch:スタイル転送のための周波数ベース動的ロラスイッチ
- Authors: Shenghe Zheng, Minyu Zhang, Tianhao Liu, Hongzhi Wang,
- Abstract要約: オープンソースアダプタは、さまざまなシーンやオブジェクトに対して、同じ拡散バックボーンでトレーニングされる。
我々のフレームワークは、異なるオブジェクトやスタイルのアダプタを効率的に組み合わせ、高品質なカスタマイズ生成のトレーニングコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 9.620935385956885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing availability of open-sourced adapters trained on the same diffusion backbone for diverse scenes and objects, combining these pretrained weights enables low-cost customized generation. However, most existing model merging methods are designed for classification or text generation, and when applied to image generation, they suffer from content drift due to error accumulation across multiple diffusion steps. For image-oriented methods, training-based approaches are computationally expensive and unsuitable for edge deployment, while training-free ones use uniform fusion strategies that ignore inter-adapter differences, leading to detail degradation. We find that since different adapters are specialized for generating different types of content, the contribution of each diffusion step carries different significance for each adapter. Accordingly, we propose a frequency-domain importance-driven dynamic LoRA switch method. Furthermore, we observe that maintaining semantic consistency across adapters effectively mitigates detail loss; thus, we design an automatic Generation Alignment mechanism to align generation intents at the semantic level. Experiments demonstrate that our FREE-Switch (Frequency-based Efficient and Dynamic LoRA Switch) framework efficiently combines adapters for different objects and styles, substantially reducing the training cost of high-quality customized generation.
- Abstract(参考訳): 同じ拡散バックボーンでトレーニングされたオープンソースアダプタが、さまざまなシーンやオブジェクトに対して利用可能になれば、事前トレーニングされた重みを組み合わせることで、低コストでカスタマイズ可能な生成が可能になる。
しかし、既存のモデルマージ手法の多くは分類やテキスト生成のために設計されており、画像生成に適用すると、複数の拡散ステップにまたがるエラーの蓄積によるコンテンツドリフトに悩まされる。
画像指向の手法では、トレーニングベースのアプローチは計算コストが高く、エッジデプロイメントには適さない。
異なるアダプタは異なるタイプのコンテンツを生成するのに特化しているため、各拡散ステップの寄与は各アダプタに異なる意味を持つ。
そこで本研究では,周波数領域の重要度駆動型動的LoRAスイッチ方式を提案する。
さらに、アダプタ間のセマンティック一貫性の維持は、詳細損失を効果的に軽減し、セマンティックレベルで生成意図を整合させる自動生成アライメント機構を設計する。
FREE-Switch(Frequency-based Efficient and Dynamic LoRA Switch)フレームワークは、異なるオブジェクトやスタイルのアダプタを効率的に組み合わせ、高品質なカスタマイズ生成のトレーニングコストを大幅に削減することを示した。
関連論文リスト
- CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion [27.087994191559904]
Low-Rank Adaptation (LoRA) は、LoRA重みを異なる概念に組み合わせることで正確な制御を行うことのできる、効率的なパーソナライズアプローチを提供する。
既存の組み合わせ技術は、コンテンツとスタイルの表現の絡み合い、要素の影響を制御するのに不十分なガイダンス、しばしば追加のトレーニングを必要とする不安定な重み付けといった、永続的な課題に直面している。
1)低ランク投射残差を注入し、疎結合なコンテンツやスタイルのサブスペースの学習を促進するランク制約付きバックボーン微調整、(2)セマンティック拡張と精密制御が可能な専門分野のエキスパートエンコーダを特徴とするプロンプト誘導アプローチ。
論文 参考訳(メタデータ) (2026-02-21T19:05:11Z) - SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [72.0937240883345]
拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。
本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-13T07:46:46Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - LoRAverse: A Submodular Framework to Retrieve Diverse Adapters for Diffusion Models [10.732709225098342]
低ランク適応(LoRA)モデルは、事前訓練された拡散モデルのパーソナライズに革命をもたらした。
Civit.aiのようなプラットフォームで100万以上のLoRAアダプタが利用可能であるにもかかわらず、ユーザはナビゲート、セレクション、そして最も適したアダプタを効果的に活用するという課題に直面している。
論文 参考訳(メタデータ) (2025-10-16T17:59:45Z) - AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition [41.654675205772485]
本稿では,多層テンソルリング分解(TRD)に基づく視覚言語微調整フレームワークAdaRingを提案する。
実験の結果,提案したAdaRingは,平均トレーニングパラメータを90%削減しつつ,最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-16T01:56:27Z) - Adaptive Parameterization of Deep Learning Models for Federated Learning [85.82002651944254]
Federated Learningは、分散形式でディープニューラルネットワークをトレーニングする方法を提供する。
トレーニング中にモデルパラメータや勾配を定期的に交換する必要があるため、通信オーバーヘッドが発生する。
本稿では,フェデレートラーニングのための並列適応器を提案する。
論文 参考訳(メタデータ) (2023-02-06T17:30:33Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。