論文の概要: FURINA: Free from Unmergeable Router via LINear Aggregation of mixed experts
- arxiv url: http://arxiv.org/abs/2509.14900v2
- Date: Thu, 25 Sep 2025 11:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.077543
- Title: FURINA: Free from Unmergeable Router via LINear Aggregation of mixed experts
- Title(参考訳): FURINA: 混合専門家のLINearアグリゲーションによる非マージ可能なルータからの自由
- Authors: Jiayi Han, Liang Du, Yinda Chen, Xiao Kang, Weiyang Ding, Donghong Han,
- Abstract要約: パラメータ効率の良い微調整のために,Mixture of Experts (MoE) をローランド適応 (LoRA) に統合することに成功している。
既存のMoE-LoRA手法の鍵となる制限は、離散ルータに依存することである。
我々は,LINear Aggregation of expertsに基づく,フリー・アグリゲーション・オブ・アンマージブル・ルータ・フレームワークであるFURINAを提案する。
- 参考スコア(独自算出の注目度): 17.056585698418587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts (MoE) paradigm has been successfully integrated into Low-Rank Adaptation (LoRA) for parameter-efficient fine-tuning (PEFT), delivering performance gains with minimal parameter overhead. However, a key limitation of existing MoE-LoRA methods is their reliance on a discrete router, which prevents the integration of the MoE components into the backbone model. To overcome this, we propose FURINA, a novel Free from Unmergeable Router framework based on the LINear Aggregation of experts. FURINA eliminates the router by introducing a Self-Routing mechanism. This is achieved through three core innovations: (1) decoupled learning of the direction and magnitude for LoRA adapters, (2) a shared learnable magnitude vector for consistent activation scaling, and (3) expert selection loss that encourages divergent expert activation. The proposed mechanism leverages the angular similarity between the input and each adapter's directional component to activate experts, which are then scaled by the shared magnitude vector. This design allows the output norm to naturally reflect the importance of each expert, thereby enabling dynamic, router-free routing. The expert selection loss further sharpens this behavior by encouraging sparsity and aligning it with standard MoE activation patterns. We also introduce a shared expert within the MoE-LoRA block that provides stable, foundational knowledge. To the best of our knowledge, FURINA is the first router-free, MoE-enhanced LoRA method that can be fully merged into the backbone model, introducing zero additional inference-time cost or complexity. Extensive experiments demonstrate that FURINA not only significantly outperforms standard LoRA but also matches or surpasses the performance of existing MoE-LoRA methods, while eliminating the extra inference-time overhead of MoE.
- Abstract(参考訳): Mixture of Experts (MoE)パラダイムは、パラメータ効率のよい微調整(PEFT)のためにLo-Rank Adaptation (LoRA)にうまく統合され、パラメータオーバーヘッドを最小限に抑えた性能向上を実現している。
しかし、既存のMoE-LoRAメソッドの鍵となる制限は、MoEコンポーネントがバックボーンモデルに統合されるのを防ぐ離散ルータに依存していることである。
これを解決するために,専門家のLINear Aggregationに基づいた,フリー・アンマージブル・ルータ・フレームワークであるFURINAを提案する。
FURINAは、セルフルーティング機構を導入することでルータを除去する。
これは、(1)LoRAアダプタの方向と大きさの分離学習、(2)一貫したアクティベーションスケーリングのための共有学習可能な等級ベクトル、(3)異なる専門家アクティベーションを促進するエキスパート選択損失の3つのコアイノベーションによって達成される。
提案機構は入力と各アダプタの方向成分の角度の類似性を利用してエキスパートを活性化し、共有等級ベクトルによって拡張する。
この設計により、出力ノルムは各専門家の重要性を自然に反映し、動的でルータフリーなルーティングを可能にする。
専門家の選択損失は、スパーシリティを奨励し、標準のMoEアクティベーションパターンと整合させることにより、この振る舞いをさらに強化する。
また、安定的で基礎的な知識を提供するMoE-LoRAブロック内で、共有専門家を紹介します。
我々の知る限り、FURINAは最初のルータフリーのMoE拡張LoRAメソッドであり、バックボーンモデルに完全にマージされ、追加の推論時間コストや複雑さがゼロになる。
大規模な実験により、FURINAは標準のLoRAを著しく上回るだけでなく、既存のMoE-LoRAメソッドのパフォーマンスに匹敵するだけでなく、MoEの余分な推論時間オーバーヘッドを排除していることが示された。
関連論文リスト
- Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - Little By Little: Continual Learning via Self-Activated Sparse Mixture-of-Rank Adaptive Learning [19.982853959240497]
大規模な事前学習モデルによる継続的な学習は、破滅的な忘れ込みとタスクの干渉によって挑戦される。
既存のLoRAベースのMixture-of-Experts (MoE)は、タスク固有のアダプタを割り当て、凍結することで、忘れを緩和する。
CLに対する自己アクティベートとスパースなランクアクティベーションを備えたMixture-of-Rank Adaptive LearningアプローチであるMoRAを提案する。
論文 参考訳(メタデータ) (2025-06-26T06:19:05Z) - LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing [17.171872354057694]
LoRA-Mixerはモジュール式で軽量なMoEフレームワークであり、LoRAの専門家を統合している。
私たちの中心となるイノベーションは、アテンションモジュールの入出力線形レイヤのプロジェクション行列をタスク固有のLoRA専門家に置き換えることです。
LoRA-Mixerは、GSM8K、HumanEval、MedQAといったデータセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-06-17T14:58:54Z) - MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。
実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T09:54:19Z) - DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - Mixture of Routers [4.248666380057258]
我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。
MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。
その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
論文 参考訳(メタデータ) (2025-03-30T08:39:09Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration [62.3751291442432]
高速なオールインワン画像復元を実現するために,コンパクトな低ランクの専門家を動的に活用する,フレキシブルなフレームワークであるLoRA-IRを提案する。
LoRA-IRは、劣化誘導前訓練とパラメータ効率の良い微調整の2つの訓練段階で構成されている。
実験により、LoRA-IRは計算効率を維持しつつ、14のIRタスクと29のベンチマークでSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2024-10-20T13:00:24Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。