論文の概要: FreeFuse: Multi-Subject LoRA Fusion via Auto Masking at Test Time
- arxiv url: http://arxiv.org/abs/2510.23515v1
- Date: Mon, 27 Oct 2025 16:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.627505
- Title: FreeFuse: Multi-Subject LoRA Fusion via Auto Masking at Test Time
- Title(参考訳): FreeFuse: テスト時のオートマスキングによるマルチオブジェクトLORA核融合
- Authors: Yaoli Liu, Yao-Xiang Ding, Kun Zhou,
- Abstract要約: FreeFuseは、複数の主題のLoRAを自動融合することで、マルチオブジェクトのテキスト・画像生成のためのトレーニング不要のアプローチである。
追加のトレーニング、LoRAの変更、補助モデル、ユーザ定義のプロンプトテンプレートやリージョン仕様を必要としないため、実行性と効率性が向上している。
- 参考スコア(独自算出の注目度): 22.751943468067633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes FreeFuse, a novel training-free approach for multi-subject text-to-image generation through automatic fusion of multiple subject LoRAs. In contrast to existing methods that either focus on pre-inference LoRA weight merging or rely on segmentation models and complex techniques like noise blending to isolate LoRA outputs, our key insight is that context-aware dynamic subject masks can be automatically derived from cross-attention layer weights. Mathematical analysis shows that directly applying these masks to LoRA outputs during inference well approximates the case where the subject LoRA is integrated into the diffusion model and used individually for the masked region. FreeFuse demonstrates superior practicality and efficiency as it requires no additional training, no modification to LoRAs, no auxiliary models, and no user-defined prompt templates or region specifications. Alternatively, it only requires users to provide the LoRA activation words for seamless integration into standard workflows. Extensive experiments validate that FreeFuse outperforms existing approaches in both generation quality and usability under the multi-subject generation tasks. The project page is at https://future-item.github.io/FreeFuse/
- Abstract(参考訳): 本稿では,複数対象LORAの自動融合によるマルチオブジェクトテキスト・画像生成のための新しいトレーニングフリーアプローチであるFreeFuseを提案する。
事前推論のLoRA重み付けにフォーカスする既存手法や、LoRA出力を分離するためにノイズブレンディングのような複雑な手法に依存する従来の手法とは対照的に、我々の重要な洞察は、コンテキスト対応の動的被写体マスクは、クロスアテンション層重みから自動的に引き出すことができることである。
数学的解析により、これらのマスクを推論中にLoRA出力に直接適用すると、対象のLoRAが拡散モデルに統合され、個別にマスク領域に使用される場合がよく近似されることが示された。
FreeFuseは、追加のトレーニング、LoRAの変更、補助モデル、ユーザ定義のプロンプトテンプレートやリージョン仕様を必要としないため、優れた実用性と効率性を示している。
あるいは、標準ワークフローにシームレスに統合するためには、LoRAアクティベーションワードを提供するだけでよい。
大規模な実験により、FreeFuseは、マルチオブジェクト生成タスクにおいて、生成品質とユーザビリティの両方において、既存のアプローチよりも優れていることが検証された。
プロジェクトページはhttps://future-item.github.io/FreeFuse/にある。
関連論文リスト
- Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.053604713064544]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - Mixture-of-Subspaces in Low-Rank Adaptation [19.364393031148236]
計算効率が高く,実装が容易で,大規模言語,マルチモーダル,拡散モデルにも容易に適用可能なサブスペースインスパイアされたローランド適応法(LoRA)を提案する。
より柔軟にするために、元のLoRA重みとミキサーを併用して学習し、Mixture-of-Subspaces LoRAと呼ぶ。
MoSLoRAは、コモンセンス推論、ビジュアルインストラクションチューニング、主観駆動のテキスト・ツー・イメージ生成など、異なるモードのタスクでLoRAを一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-16T14:19:49Z) - MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts [3.6301530893494127]
MixLoRAは、リソース効率の良いスパースMoEモデルを構築するためのアプローチである。
評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
論文 参考訳(メタデータ) (2024-04-22T02:15:52Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Continual Forgetting for Pre-trained Vision Models [70.51165239179052]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
効率的な削除のためのグループスパースロラ(GS-LoRA)を提案する。
我々は,顔認識,物体検出,画像分類に関する広範な実験を行い,GS-LoRAが他のクラスに最小限の影響で,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2024-03-18T07:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。