論文の概要: L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts
- arxiv url: http://arxiv.org/abs/2510.17898v1
- Date: Sun, 19 Oct 2025 08:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.329007
- Title: L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts
- Title(参考訳): L-MoE:低ランク適応エキスパートの軽量混合体のエンド・ツー・エンドトレーニング
- Authors: Shihao Ji, Zihui Song,
- Abstract要約: L-MoE: LoRA エキスパートの軽量混合体について紹介する。
L-MoEは、MoEの専門家をタスク特化して低ランクのアダプタとして再定義する。
L-MoE の公式な数学的枠組みを提案する。
- 参考スコア(独自算出の注目度): 10.21556794551883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture of Experts (MoE) architecture enables the scaling of Large Language Models (LLMs) to trillions of parameters by activating a sparse subset of weights for each input, maintaining constant computational cost during inference. Concurrently, Low-Rank Adaptation (LoRA) has emerged as a dominant technique for parameter-efficiently fine-tuning LLMs on specialized tasks. In this work, we unify these two paradigms into a novel, end-to-end trainable framework named L-MoE: a Lightweight Mixture of LoRA Experts. L-MoE redefines MoE experts not as dense feed-forward networks, but as a collection of task-specialized, low-rank adapters. A lightweight gating network, trained jointly with the experts, learns to dynamically compose these LoRA adapters by computing a weighted average of their parameters for each input token. This composition is fully differentiable, allowing gradients from a standard auto-regressive language modeling objective to flow back through the entire architecture, simultaneously refining both the expert adapters and the routing strategy. This approach creates a highly parameter-efficient MoE model that is modular by design, allows for dynamic skill composition, and is trainable from end-to-end. We present the formal mathematical framework for L-MoE, detailing the differentiable routing mechanism and the joint optimization objective, thereby providing a new path toward building more efficient, scalable, and specialized language models.
- Abstract(参考訳): エキスパートの混合(Mixture of Experts)アーキテクチャは、入力ごとに余分な重みのサブセットを活性化し、推論中に一定の計算コストを維持することにより、LLM(Large Language Models)を数兆のパラメータにスケーリングすることを可能にする。
同時に、Low-Rank Adaptation (LoRA) は、特殊タスクにおけるパラメータ効率の良い微調整 LLM の主流技術として登場した。
本稿では、これらの2つのパラダイムを、L-MoE: a Lightweight Mixture of LoRA Expertsという、新しいエンドツーエンドのトレーニング可能なフレームワークに統合する。
L-MoEは、MoEの専門家を高密度フィードフォワードネットワークではなく、タスク専用で低ランクなアダプタの集合として再定義する。
専門家と共同で訓練された軽量ゲーティングネットワークは、各入力トークンに対するパラメータの重み付け平均を計算することによって、これらのLoRAアダプタを動的に構成することを学ぶ。
この構成は完全に微分可能であり、標準の自動回帰言語モデリングの目的からの勾配をアーキテクチャ全体へ遡らせ、専門家のアダプタとルーティング戦略の両方を同時に改善することができる。
このアプローチは、設計によってモジュール化され、ダイナミックなスキル構成が可能で、エンドツーエンドからトレーニング可能な、非常にパラメータ効率のよいMoEモデルを生成する。
本稿では,L-MoEの形式的数学的枠組みについて述べるとともに,より効率的でスケーラブルで特殊化された言語モデルを構築するための新たな経路を提供する。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。
実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T09:54:19Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。