論文の概要: Parameter-Efficient MoE LoRA for Few-Shot Multi-Style Editing
- arxiv url: http://arxiv.org/abs/2511.11236v2
- Date: Fri, 21 Nov 2025 04:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 14:08:26.055008
- Title: Parameter-Efficient MoE LoRA for Few-Shot Multi-Style Editing
- Title(参考訳): Few-Shot Multi-Style 編集のためのパラメータ効率の良いMoE LoRA
- Authors: Cong Cao, Yujie Xu, Xiaodong Xu,
- Abstract要約: そこで本研究では,パラメータ効率のよいMixture-of-Experts Low-Rank Adaptation (MoE LoRA)を提案する。
提案手法は,LoRAパラメータが大幅に少ない既存の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 6.95397292284568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, image editing has garnered growing attention. However, general image editing models often fail to produce satisfactory results when confronted with new styles. The challenge lies in how to effectively fine-tune general image editing models to new styles using only a limited amount of paired data. To address this issue, this paper proposes a novel few-shot style editing framework. For this task, we construct a benchmark dataset that encompasses five distinct styles. Correspondingly, we propose a parameter-efficient multi-style Mixture-of-Experts Low-Rank Adaptation (MoE LoRA) with style-specific and style-shared routing mechanisms for jointly fine-tuning multiple styles. The style-specific routing ensures that different styles do not interfere with one another, while the style-shared routing adaptively allocates shared MoE LoRAs to learn common patterns. Our MoE LoRA can automatically determine the optimal ranks for each layer through a novel metric-guided approach that estimates the importance score of each single-rank component. Additionally, we explore the optimal location to insert LoRA within the Diffusion in Transformer (DiT) model and integrate adversarial learning and flow matching to guide the diffusion training process. Experimental results demonstrate that our proposed method outperforms existing state-of-the-art approaches with significantly fewer LoRA parameters.
- Abstract(参考訳): 近年,画像編集への注目が高まっている。
しかし、一般的な画像編集モデルは、新しいスタイルに直面すると満足な結果が得られないことが多い。
この課題は、限られたペアデータのみを使用して、汎用画像編集モデルを新しいスタイルに効果的に微調整する方法にある。
この問題に対処するために,本研究では,新しい数ショットスタイルの編集フレームワークを提案する。
そこで本研究では,5つの異なるスタイルを含むベンチマークデータセットを構築した。
そこで本研究では,パラメータ効率のよいMixture-of-Experts Low-Rank Adaptation (MoE LoRA)を提案する。
スタイル固有のルーティングは、異なるスタイルが互いに干渉しないことを保証する一方で、スタイル共有ルーティングは共通のパターンを学ぶために共有MoE LoRAを適応的に割り当てる。
我々のMoE LoRAは、各シングルランクコンポーネントの重要度を推定する新しい計量誘導アプローチにより、各レイヤの最適ランクを自動的に決定できる。
さらに,Diffusion in Transformer(DiT)モデルにLoRAを挿入する最適な位置を探索し,対向学習とフローマッチングを統合して拡散学習プロセスの指導を行う。
実験の結果,提案手法はロラパラメータが大幅に少ない既存の最先端手法よりも優れていた。
関連論文リスト
- Subject or Style: Adaptive and Training-Free Mixture of LoRAs [3.8443430569753025]
EST-LoRAは、トレーニングレス適応型LoRA融合法である。
行列のアンダーラインエナジー、アンダーラインスタイルの離散性スコア、アンダーラインタイムステップの3つの重要な要素について考察する。
定性評価と定量的評価の両方において最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-08-04T08:05:18Z) - Dance Like a Chicken: Low-Rank Stylization for Human Motion Diffusion [28.94750481325469]
編集性を維持しながら複雑な動作に一般化する動きスタイリングのためのフレームワークであるLoRA-MDMを紹介する。
我々の重要な洞察は、そのスタイルを含む前に生成体を適応させることは、その全体の分布を保ちながら、生成中の個々の動きを変更するよりも効果的であるということである。
LoRA-MDMは、いくつかのサンプルを使用して参照スタイルを含める前に適応することを学ぶ。
論文 参考訳(メタデータ) (2025-03-25T11:23:34Z) - MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。
これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文 参考訳(メタデータ) (2024-04-25T13:51:38Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs [56.85106417530364]
低ランク適応(LoRA)は概念駆動型パーソナライゼーションを実現するためのパラメータ効率のよい方法として提案されている。
我々は、独立に訓練されたスタイルと主題のLoRAを安価かつ効果的にマージするZipLoRAを提案する。
実験により、ZipLoRAは主観とスタイルの忠実さのベースラインよりも有意義な改善を施した魅力的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:36Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。