論文の概要: LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing
- arxiv url: http://arxiv.org/abs/2507.00029v1
- Date: Tue, 17 Jun 2025 14:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.394103
- Title: LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing
- Title(参考訳): LoRA-Mixer: シリアルアテンションルーティングによるモジュール型LoRAエキスパートの調整
- Authors: Wenbing Li, Zikai Song, Hang Zhou, Yunyao Zhang, Junqing Yu, Wei Yang,
- Abstract要約: LoRA-Mixerはモジュール式で軽量なMoEフレームワークであり、LoRAの専門家を統合している。
私たちの中心となるイノベーションは、アテンションモジュールの入出力線形レイヤのプロジェクション行列をタスク固有のLoRA専門家に置き換えることです。
LoRA-Mixerは、GSM8K、HumanEval、MedQAといったデータセットの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 17.171872354057694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts to combine low-rank adaptation (LoRA) with mixture-of-experts (MoE) for adapting large language models (LLMs) to multiple tasks still exhibit prevailing limitations: they either swap entire attention/feed-forward layers for switch experts or bolt on parallel expert branches, diluting parameter efficiency and task fidelity. We propose the LoRA-Mixer, a modular and lightweight MoE framework that integrates LoRA experts. Our core innovation lies in replacing the projection matrices of the attention module's input/output linear layers with dynamically routed, task-specific LoRA experts. This design ensures seamless compatibility with diverse foundation models, including transformers and state space models (SSMs), by leveraging their inherent linear projection structures. The framework supports two operational paradigms: (1) joint optimization of LoRA experts and routing mechanisms via a novel hard-soft routing strategy, or (2) direct deployment of pre-trained, frozen LoRA modules sourced from external repositories. To enable robust router training with limited data while ensuring stable routing decisions and maximizing expert reuse, we introduce an adaptive Specialization Balance Loss (SBL) that jointly optimizes expert balance and task-specific alignment. Extensive experiments on seven benchmark datasets, including MedQA, CoLA, SST-2, GSM8K, ARC-E, ARC-C, and HumanEval, demonstrate the effectiveness of LoRA-Mixer. On datasets such as GSM8K, HumanEval, and MedQA, LoRA-Mixer achieves significant improvements of 7.61%, 4.88%, and 3.08% over the base models, respectively. Compared with state-of-the-art methods, LoRA-Mixer achieves additional improvements of 1.09%, 1.45%, and 1.68%, respectively, using only 48% of the parameters, demonstrating its efficiency and strong performance.
- Abstract(参考訳): 大規模言語モデル(LLM)を複数のタスクに適用するための低ランク適応(LoRA)とMix-of-experts(MoE)を組み合わせようとする最近の取り組みは、専門家を切り替えるために注意/フィードフォワード層全体を置き換えたり、並列の専門家ブランチ上でボルトをボルトにしたり、パラメータ効率やタスクの忠実さを減らしたりといった、一般的な制限をまだ示している。
LoRA-Mixerはモジュール式で軽量なMoEフレームワークであり、LoRAの専門家を統合している。
我々の中心となるイノベーションは、アテンションモジュールの入出力線形レイヤのプロジェクション行列を動的にルーティングされたタスク固有のLoRA専門家に置き換えることです。
この設計は、変換器や状態空間モデル(SSM)を含む様々な基礎モデルとのシームレスな互換性を保証する。
このフレームワークは、2つの運用パラダイムをサポートしている。(1) 新たなハードソフトルーティング戦略によるLoRA専門家とルーティングメカニズムの共同最適化、(2) 外部リポジトリからソースされた事前学習された凍結されたLoRAモジュールの直接デプロイ。
安定したルーティング決定と専門家の再利用を最大化しながら、限られたデータによる堅牢なルータトレーニングを実現するために、専門家のバランスとタスク固有のアライメントを協調的に最適化する適応型特殊化バランス損失(SBL)を導入する。
MedQA、CoLA、SST-2、GSM8K、ARC-E、ARC-C、HumanEvalを含む7つのベンチマークデータセットに対する大規模な実験は、LoRA-Mixerの有効性を実証している。
GSM8K、HumanEval、MedQAなどのデータセットでは、LoRA-Mixerはベースモデルに対してそれぞれ7.61%、4.88%、3.08%の大幅な改善を実現している。
最先端の手法と比較して、LoRA-Mixerは、それぞれ1.09%、1.45%、1.68%の改善を実現している。
関連論文リスト
- LoRA-Gen: Specializing Large Language Model via Online LoRA Generation [68.01864057372067]
タスク記述に基づくエッジサイドモデルのLoRAパラメータを生成するためのLoRA-Genフレームワークを提案する。
フレキシブルな特殊化を実現するために,LoRAパラメータをエッジ側モデルにマージする。
本手法は,モデル間の知識伝達を容易にするとともに,特殊モデルの推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-13T10:11:01Z) - A Stronger Mixture of Low-Rank Experts for Fine-Tuning Foundation Models [22.457766373989365]
Low-Rank Adapters (LoRA) は、命令チューニングやドメイン適応など、様々な分野に広く採用されている。
LoRAの限られた表現能力に対処するため、複数のLoRAアダプタを組み込むためのMixture-of-Expert (MoE)が導入されている。
マルチスペースプロジェクションによる特徴学習手順の安定化と向上を図るため,MoE-LoRAの新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:58:53Z) - Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.053604713064544]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning [9.91790333647256]
低ランク適応法(LoRA)とその混合実験法(MOE)は,高効率なパラメータ効率微調整法(PEFT)である。
新規かつ効率的なLoRA変種であるMiLoRAを提案する。
MiLoRAは、各LoRAモジュールを専門家として考慮し、プロンプト対応のルーティング機構を採用することで、従来のMOEスタイルのLoRAメソッドと異なる。
論文 参考訳(メタデータ) (2024-10-23T17:04:40Z) - Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts [3.6301530893494127]
MixLoRAは、リソース効率の良いスパースMoEモデルを構築するためのアプローチである。
評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
論文 参考訳(メタデータ) (2024-04-22T02:15:52Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。