論文の概要: ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning
- arxiv url: http://arxiv.org/abs/2603.10160v1
- Date: Tue, 10 Mar 2026 18:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.658334
- Title: ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning
- Title(参考訳): ReMix:LLMファインタニングにおけるLoRA混合体の強化ルーティング
- Authors: Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong,
- Abstract要約: 低ランクアダプタ(LoRAs)は、トレーニング可能な低ランク行列をトレーニング済みモデルに注入し、新しいタスクに適応するパラメータ効率の微調整技術である。
既存のMixture-of-LoRAsルータは学習したルーティングウェイトを各LoRAに割り当て、ルータのエンドツーエンドのトレーニングを可能にする。
Reinforcement Routing for Mixture-of-LoRAs (ReMix) と呼ばれる新しいルータを提案する。
- 参考スコア(独自算出の注目度): 85.39146836671897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adapters (LoRAs) are a parameter-efficient finetuning technique that injects trainable low-rank matrices into pretrained models to adapt them to new tasks. Mixture-of-LoRAs models expand neural networks efficiently by routing each layer input to a small subset of specialized LoRAs of the layer. Existing Mixture-of-LoRAs routers assign a learned routing weight to each LoRA to enable end-to-end training of the router. Despite their empirical promise, we observe that the routing weights are typically extremely imbalanced across LoRAs in practice, where only one or two LoRAs often dominate the routing weights. This essentially limits the number of effective LoRAs and thus severely hinders the expressive power of existing Mixture-of-LoRAs models. In this work, we attribute this weakness to the nature of learnable routing weights and rethink the fundamental design of the router. To address this critical issue, we propose a new router designed that we call Reinforcement Routing for Mixture-of-LoRAs (ReMix). Our key idea is using non-learnable routing weights to ensure all active LoRAs to be equally effective, with no LoRA dominating the routing weights. However, our routers cannot be trained directly via gradient descent due to our non-learnable routing weights. Hence, we further propose an unbiased gradient estimator for the router by employing the reinforce leave-one-out (RLOO) technique, where we regard the supervision loss as the reward and the router as the policy in reinforcement learning. Our gradient estimator also enables to scale up training compute to boost the predictive performance of our ReMix. Extensive experiments demonstrate that our proposed ReMix significantly outperform state-of-the-art parameter-efficient finetuning methods under a comparable number of activated parameters.
- Abstract(参考訳): 低ランクアダプタ(LoRAs)は、トレーニング可能な低ランク行列をトレーニング済みモデルに注入し、新しいタスクに適応するパラメータ効率の微調整技術である。
混合LoRAモデルは、各層の入力を、その層の特殊なLoRAの小さなサブセットにルーティングすることで、ニューラルネットワークを効率的に拡張する。
既存のMixture-of-LoRAsルータは学習したルーティングウェイトを各LoRAに割り当て、ルータのエンドツーエンドのトレーニングを可能にする。
実証的な約束にもかかわらず、ルーティングウェイトは通常、LoRA間で非常に不均衡であり、1つまたは2つのLoRAのみがルーティングウェイトを支配している。
これは本質的に有効なLoRAの数を制限するため、既存のMixture-of-LoRAsモデルの表現力を著しく阻害する。
本研究では、この弱点を学習可能なルーティングウェイトの性質とみなし、ルータの基本設計を再考する。
この重要な問題に対処するため、我々はReinforcement Routing for Mixture-of-LoRAs (ReMix) と呼ぶ新しいルータを提案する。
私たちのキーとなるアイデアは、学習不能なルーティングウェイトを使用して、すべてのアクティブなLoRAが同じように有効であることを保証し、ルーティングウェイトをLoRAが支配しないことです。
しかし、ルータは、学習不能なルーティング重みのため、勾配降下を直接訓練することはできない。
そこで我々は,Reforceforce leave-one-out (RLOO) 技術を用いて,ルータの非バイアス勾配推定器を提案し,その制御損失を報酬とみなし,ルータを強化学習の方針とみなす。
我々の勾配推定器はトレーニング計算のスケールアップを可能にし、ReMixの予測性能を向上する。
大規模実験により,提案したReMixは,動作パラメータの数に比較して,最先端パラメータ効率の高い微調整法よりも優れていた。
関連論文リスト
- A Stronger Mixture of Low-Rank Experts for Fine-Tuning Foundation Models [22.457766373989365]
Low-Rank Adapters (LoRA) は、命令チューニングやドメイン適応など、様々な分野に広く採用されている。
LoRAの限られた表現能力に対処するため、複数のLoRAアダプタを組み込むためのMixture-of-Expert (MoE)が導入されている。
マルチスペースプロジェクションによる特徴学習手順の安定化と向上を図るため,MoE-LoRAの新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:58:53Z) - MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning [9.91790333647256]
低ランク適応法(LoRA)とその混合実験法(MOE)は,高効率なパラメータ効率微調整法(PEFT)である。
新規かつ効率的なLoRA変種であるMiLoRAを提案する。
MiLoRAは、各LoRAモジュールを専門家として考慮し、プロンプト対応のルーティング機構を採用することで、従来のMOEスタイルのLoRAメソッドと異なる。
論文 参考訳(メタデータ) (2024-10-23T17:04:40Z) - MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts [3.6301530893494127]
MixLoRAは、リソース効率の良いスパースMoEモデルを構築するためのアプローチである。
評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
論文 参考訳(メタデータ) (2024-04-22T02:15:52Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。