論文の概要: CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion
- arxiv url: http://arxiv.org/abs/2602.18936v2
- Date: Tue, 24 Feb 2026 06:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 13:30:08.549958
- Title: CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion
- Title(参考訳): CRAFT-LoRA:ランク制約付き適応と学習自由融合によるコンテンツスタイルのパーソナライズ
- Authors: Yu Li, Yujun Cai, Chi Zhang,
- Abstract要約: Low-Rank Adaptation (LoRA) は、LoRA重みを異なる概念に組み合わせることで正確な制御を行うことのできる、効率的なパーソナライズアプローチを提供する。
既存の組み合わせ技術は、コンテンツとスタイルの表現の絡み合い、要素の影響を制御するのに不十分なガイダンス、しばしば追加のトレーニングを必要とする不安定な重み付けといった、永続的な課題に直面している。
1)低ランク投射残差を注入し、疎結合なコンテンツやスタイルのサブスペースの学習を促進するランク制約付きバックボーン微調整、(2)セマンティック拡張と精密制御が可能な専門分野のエキスパートエンコーダを特徴とするプロンプト誘導アプローチ。
- 参考スコア(独自算出の注目度): 27.087994191559904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized image generation requires effectively balancing content fidelity with stylistic consistency when synthesizing images based on text and reference examples. Low-Rank Adaptation (LoRA) offers an efficient personalization approach, with potential for precise control through combining LoRA weights on different concepts. However, existing combination techniques face persistent challenges: entanglement between content and style representations, insufficient guidance for controlling elements' influence, and unstable weight fusion that often require additional training. We address these limitations through CRAFT-LoRA, with complementary components: (1) rank-constrained backbone fine-tuning that injects low-rank projection residuals to encourage learning decoupled content and style subspaces; (2) a prompt-guided approach featuring an expert encoder with specialized branches that enables semantic extension and precise control through selective adapter aggregation; and (3) a training-free, timestep-dependent classifier-free guidance scheme that enhances generation stability by strategically adjusting noise predictions across diffusion steps. Our method significantly improves content-style disentanglement, enables flexible semantic control over LoRA module combinations, and achieves high-fidelity generation without additional retraining overhead.
- Abstract(参考訳): パーソナライズされた画像生成は、テキストと参照例に基づく画像の合成において、コンテンツの忠実度とスタイル整合性を効果的にバランスさせることを必要とする。
Low-Rank Adaptation (LoRA) は、LoRA重みを異なる概念に組み合わせることで正確な制御を行うことのできる、効率的なパーソナライズアプローチを提供する。
しかし、既存の組み合わせ技術は、コンテンツとスタイルの表現の絡み合い、要素の影響を制御できないガイダンス、しばしば追加のトレーニングを必要とする不安定な重み付けといった、永続的な課題に直面している。
我々は,CRAFT-LoRAを通じて,(1)低階射影残差を注入して疎結合なコンテンツやスタイルのサブスペースの学習を促進するランク制約付きバックボーンファインタニング,(2)選択的アダプティブアグリゲーションによるセマンティック拡張と精密制御が可能な専門分野のエキスパートエンコーダを特徴とするプロンプト誘導アプローチ,(3)拡散ステップ間のノイズ予測を戦略的に調整することで生成安定性を高めるトレーニングフリーなタイムステップ依存型クラスファイアフリーガイダンススキームの2つを補完する。
提案手法は,コンテンツスタイルのアンタングル化を大幅に改善し,LORAモジュールの組み合わせに対する柔軟なセマンティック制御を実現し,新たな再トレーニングオーバーヘッドを伴わずに高忠実度生成を実現する。
関連論文リスト
- Dynamic Training-Free Fusion of Subject and Style LoRAs [38.73465144699025]
生成プロセス全体にわたって動作する訓練不要な融合フレームワークを提案する。
我々の手法は、定性的かつ定量的に最先端のLoRA融合法より一貫して優れている。
論文 参考訳(メタデータ) (2026-02-17T12:42:30Z) - UnHype: CLIP-Guided Hypernetworks for Dynamic LoRA Unlearning [3.8373805990749266]
UnHypeは、ハイパーネットワークをシングルコンセプトとマルチコンセプトのローランド適応(LoRA)トレーニングに組み込むフレームワークである。
推論中、ハイパーネットワークはCLIP埋め込みに基づいて適応的なLoRA重みを動的に生成する。
我々はUnHypeを、オブジェクト消去、有名人の消去、明示的なコンテンツ削除など、いくつかの困難なタスクで評価する。
論文 参考訳(メタデータ) (2026-02-03T11:37:08Z) - An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。
意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。
提案手法は画像生成のパーフェマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-04T06:36:00Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - MultLFG: Training-free Multi-LoRA composition using Frequency-domain Guidance [44.4839416120775]
MultLFGは、トレーニング不要なマルチLORA合成のためのフレームワークである。
複数のLoRAの適応的な融合を実現するために周波数領域誘導を使用する。
様々なスタイルやコンセプトセットにまたがって、作曲の忠実さと画質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-26T21:05:28Z) - Continuous Knowledge-Preserving Decomposition with Adaptive Layer Selection for Few-Shot Class-Incremental Learning [73.59672160329296]
CKPD-FSCILは、事前訓練された重量の未使用容量を解放する統合フレームワークである。
本手法は,適応性と知識保持の両面で,最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control [43.96257216397601]
拡散モデルの学習自由なパーソナライズのための新しいプラグアンドプレイソリューションを提案する。
RB-Modulationは、スタイル記述子が所望の属性をエンコードする新しい最適コントローラ上に構築されている。
クロスアテンションに基づく特徴集約方式により、RB変調は参照画像から内容とスタイルを分離することができる。
論文 参考訳(メタデータ) (2024-05-27T17:51:08Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。