論文の概要: AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.02107v1
- Date: Mon, 04 Aug 2025 06:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.205964
- Title: AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation
- Title(参考訳): AutoLoRA:テキスト・画像生成のための自動LoRA検索と微細粒化融合
- Authors: Zhiwen Li, Zhongjie Duan, Die Chen, Cen Chen, Daoyuan Chen, Yaliang Li, Yingda Chen,
- Abstract要約: 低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。
意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。
提案手法は画像生成のパーフェマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 32.46570968627392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in photorealistic image generation through large-scale models like FLUX and Stable Diffusion v3, the practical deployment of these architectures remains constrained by their inherent intractability to parameter fine-tuning. While low-rank adaptation (LoRA) have demonstrated efficacy in enabling model customization with minimal parameter overhead, the effective utilization of distributed open-source LoRA modules faces three critical challenges: sparse metadata annotation, the requirement for zero-shot adaptation capabilities, and suboptimal fusion strategies for multi-LoRA fusion strategies. To address these limitations, we introduce a novel framework that enables semantic-driven LoRA retrieval and dynamic aggregation through two key components: (1) weight encoding-base LoRA retriever that establishes a shared semantic space between LoRA parameter matrices and text prompts, eliminating dependence on original training data, and (2) fine-grained gated fusion mechanism that computes context-specific fusion weights across network layers and diffusion timesteps to optimally integrate multiple LoRA modules during generation. Our approach achieves significant improvement in image generation perfermance, thereby facilitating scalable and data-efficient enhancement of foundational models. This work establishes a critical bridge between the fragmented landscape of community-developed LoRAs and practical deployment requirements, enabling collaborative model evolution through standardized adapter integration.
- Abstract(参考訳): 近年のFLUXやStable Diffusion v3のような大規模モデルによるフォトリアリスティック画像生成の進歩にもかかわらず、これらのアーキテクチャの実践的展開はパラメータの微調整に固有の難易度によって制約されている。
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を示したが、分散オープンソースのLoRAモジュールの有効利用は、スパースメタデータアノテーション、ゼロショット適応能力の要件、マルチLORA融合戦略のための準最適融合戦略の3つの重要な課題に直面している。
これらの制約に対処するために,(1)LoRAパラメータ行列とテキストプロンプト間の共有意味空間を確立する重み符号化ベースのLoRAレトリバー,(2)ネットワーク層間のコンテキスト特異的な融合重みを計算し,拡散時間で複数のLoRAモジュールを最適に統合する微細なゲート融合機構,という2つの重要なコンポーネントを通じて,意味駆動型LoRA検索と動的集約を可能にする新しいフレームワークを導入する。
提案手法は画像生成のパーフェマンスの大幅な向上を実現し,基礎モデルのスケーラブルでデータ効率のよい拡張を実現する。
この作業は、コミュニティが開発したLoRAの断片化された風景と実践的なデプロイメント要件の間に重要な橋渡しを行い、標準化されたアダプタ統合を通じて協調的なモデルの進化を可能にします。
関連論文リスト
- Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs [10.218401136555064]
Cross-LoRAは、さまざまなベースモデル間でLoRAモジュールを転送するためのフレームワークである。
実験の結果、クロスロラはベースモデルよりも5.26%の相対的なゲインを達成している。
論文 参考訳(メタデータ) (2025-08-07T10:21:08Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - LoRA-Gen: Specializing Large Language Model via Online LoRA Generation [68.01864057372067]
タスク記述に基づくエッジサイドモデルのLoRAパラメータを生成するためのLoRA-Genフレームワークを提案する。
フレキシブルな特殊化を実現するために,LoRAパラメータをエッジ側モデルにマージする。
本手法は,モデル間の知識伝達を容易にするとともに,特殊モデルの推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-13T10:11:01Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - AsymLoRA: Harmonizing Data Conflicts and Commonalities in MLLMs [5.018961516699825]
AsymLoRAは、知識のモジュール化と相互調整を統一するパラメータ効率のチューニングフレームワークである。
AsymLoRAは、共通点のみを捉えたバニラLoRAと、紛争のみに焦点を当てたLoRA-MoEの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-27T12:21:02Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement [5.162783756846019]
ファンデーションモデル(FM)は、タスク固有の微調整によって、多様なタスクにまたがる強力なパフォーマンスを実現する。
低ランク適応 (LoRA) のようなローランク適応 (LoRA) 手法は、少ないパラメータをチューニングするための低ランク行列を導入することで、このコストを削減する。
LoRA-FAIRは計算と通信の効率を維持し、最先端の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2024-11-22T14:19:01Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。