論文の概要: SeqLoRA: Bilevel Orthogonal Adaptation for Continual Multi-Concept Generation
- arxiv url: http://arxiv.org/abs/2605.22743v1
- Date: Thu, 21 May 2026 17:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.366926
- Title: SeqLoRA: Bilevel Orthogonal Adaptation for Continual Multi-Concept Generation
- Title(参考訳): SeqLoRA: 連続多概念生成のための双方向直交適応
- Authors: Javad Parsa, Enis Simsar, Amir Joudaki, Thomas Hofmann, André M. H. Teixeira,
- Abstract要約: 制約付き連続学習フレームワークであるSeqLoRAを提案する。
データからLoRA基底を学習することで、凍結基底法よりも残差干渉エネルギーを効果的に抑えることが証明された。
マルチコンセプト画像生成の実験では、SeqLoRAは最大101のコンセプトでアイデンティティの保存とスケーラビリティを改善している。
- 参考スコア(独自算出の注目度): 33.32101400652499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning enables fast personalization of text-to-image diffusion models, but composing multiple custom concepts remains challenging due to representation interference. Existing modular methods either rely on expensive post-hoc fusion or freeze adaptation subspaces, which limit expressiveness and concept fidelity. To address this trade-off, we propose Sequential regularized LoRA (SeqLoRA), a constrained continual learning framework that jointly optimizes both LoRA factors via bilevel optimization. Theoretically, we establish strong convergence guarantees for our algorithm and model the residual layer activations as a matrix sub-Gaussian process to derive high-probability bounds on catastrophic forgetting. We further prove that learning the LoRA basis from data minimizes residual interference energy more effectively than frozen-basis methods. Experiments on multi-concept image generation demonstrate that SeqLoRA improves identity preservation and scalability across up to 101 concepts, while avoiding costly fusion and reducing attribute interference in composed generations.
- Abstract(参考訳): パラメータ効率の良い微調整は、テキストから画像への拡散モデルの高速なパーソナライズを可能にするが、表現干渉のため、複数のカスタム概念を構成することは困難である。
既存のモジュラー法は高価なポストホック融合か、表現性と概念の忠実さを制限する適応部分空間に依存している。
このトレードオフに対処するため、二段階最適化により両loRA要素を協調的に最適化する制約付き連続学習フレームワークであるSeqLoRAを提案する。
理論的には,我々のアルゴリズムに対する強い収束保証を確立し,残層活性化を行列部分ガウス過程としてモデル化し,破滅的忘れ物に高確率境界を導出する。
さらに、データからLoRA基底を学習することで、凍結基底法よりも効率的に残差エネルギーを最小化できることを示す。
マルチコンセプト画像生成の実験では、SeqLoRAは最大101のコンセプトでアイデンティティの保存とスケーラビリティを改善し、コストのかかる融合を回避し、構成世代での属性干渉を低減する。
関連論文リスト
- FlowErase-RL: Rethinking Concept Erasure as Reward Optimization in Flow Matching Models [47.80885954469943]
フローマッチングモデルでは、テキストから画像への生成品質が大幅に向上しただけでなく、安全性が向上した。
フローマッチングモデルにおける概念消去のための最初のGRPOベースのフレームワークであるemphFlowErase-RLを提案する。
本研究では,画像品質とセマンティックアライメントを維持しつつ,最先端の消去性能を実現する方法を示す。
論文 参考訳(メタデータ) (2026-05-19T12:10:09Z) - UnHype: CLIP-Guided Hypernetworks for Dynamic LoRA Unlearning [3.8373805990749266]
UnHypeは、ハイパーネットワークをシングルコンセプトとマルチコンセプトのローランド適応(LoRA)トレーニングに組み込むフレームワークである。
推論中、ハイパーネットワークはCLIP埋め込みに基づいて適応的なLoRA重みを動的に生成する。
我々はUnHypeを、オブジェクト消去、有名人の消去、明示的なコンテンツ削除など、いくつかの困難なタスクで評価する。
論文 参考訳(メタデータ) (2026-02-03T11:37:08Z) - MambaX: Image Super-Resolution with State Predictive Control [48.76194230142064]
Mambaは、再構築プロセス全体を複数のノードによる状態シーケンスとして表現し、中間的介入を可能にする、有望なアプローチとして登場した。
我々は、連続するスペクトル帯域を潜在状態空間にマッピングする非線形状態予測制御モデル textbfMambaX を作成し、制御方程式の非線形状態パラメータを動的に学習することでSRタスクを一般化した。
本評価では, 単一像SRと多モード融合型SRの両タスクにおいて, 動的スペクトル状態表現モデルの優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-22T11:44:09Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。
意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。
提案手法は画像生成のパーフェマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-04T06:36:00Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。