論文の概要: RotMoLE: Enhancing Mixture of Low-Rank Experts through Rotational Gating Mechanism
- arxiv url: http://arxiv.org/abs/2605.25565v1
- Date: Mon, 25 May 2026 08:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.465943
- Title: RotMoLE: Enhancing Mixture of Low-Rank Experts through Rotational Gating Mechanism
- Title(参考訳): RotMole:ローランド専門家の回転ゲーティング機構による混合促進
- Authors: Mengyang Sun, Maochuan Dou, Tao Feng, Dan Zhang, Yihao Wang, Junpeng Liu, Yifan Zhu, Jie Tang,
- Abstract要約: 回転ゲートを付加した低ランクの専門家のための特殊なMoEフレームワークであるRotMoLEを提案する。
RotMoLEは、選択された専門家ごとに回転機構を実装し、優れた専門家の搾取と専門化を可能にする。
複雑なマルチタスクおよび多言語学習シナリオに関する実証的な結果が、我々の有効性を検証する。
- 参考スコア(独自算出の注目度): 26.073286110158893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) are commonly fine-tuned to handle domain-specific tasks before being applied to vertical applications, adapting them to complex scenarios with diverse specialized knowledge remains challenging. Meanwhile, Mixture-of-Experts (MoE) architecture has risen as a crucial paradigm for training LLMs, and some recent works have also incorporated MoE into Parameter-Efficient Fine-Tuning (PEFT) to propose the Mixture of Low-rank Experts (MoE-LoRA), to enhance the power of low-rank adapters for learning complicated knowledge. However, conventional gating mechanisms in MoE typically apply only a scalar reweighing to selected experts, thereby limiting their underlying capacity of representation and generalization. Motivated and enabled by the low-rank structures in MoE-LoRA, we propose RotMoLE, a specialized MoE framework for low-rank experts featuring an additional rotation gate. Beyond simple scaling, RotMoLE implements a rotation mechanism for each selected expert, enabling superior expert exploitation and specialization for learning diverse data, especially when expert candidates are limited. Empirical results on complex multi-task and multilingual training scenarios validate our effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、垂直的なアプリケーションに適用される前にドメイン固有のタスクを扱うように調整されることが多いが、様々な専門知識を持つ複雑なシナリオに適応するのは難しい。
一方、Mixture-of-Experts (MoE) アーキテクチャは、LLMのトレーニングにおける重要なパラダイムとして台頭し、近年のいくつかの研究は、複雑な知識を学ぶための低ランクアダプタのパワーを高めるために、Mixture of Low-rank Experts (MoE-LoRA) を提案するために、パラメータ・エフェクト・ファインチューニング (PEFT) にMoEを組み入れている。
しかし、MoEの従来のゲーティング機構は、選択した専門家にしか適用されないため、表現と一般化の基本的な能力は制限される。
そこで我々は,MoE-LoRAの低ランク構造をモチベーションとし,回転ゲートを付加した低ランクの専門家のための特殊なMoEフレームワークRotMoLEを提案する。
単純なスケーリング以外にも、RotMoLEは選択した専門家ごとにローテーション機構を実装しており、特に専門家候補が限定されている場合、さまざまなデータを学ぶための優れた専門家の搾取と専門化を可能にしている。
複雑なマルチタスクおよび多言語学習シナリオに関する実証的な結果が、我々の有効性を検証する。
関連論文リスト
- SAMoRA: Semantic-Aware Mixture of LoRA Experts for Task-Adaptive Learning [16.375739338401303]
本稿では,タスク適応学習に適したパラメータ効率の高いファインチューニングフレームワークを提案する。
セマンティック・アウェア・ルータは、テキストのセマンティックスを正確にルーティングするのに最も適した専門家と明確に整合させることが提案されている。
Task-Uniform Scalingメカニズムは、特定のタスク要求に基づいて専門家のコントリビューションを調整するように設計されている。
論文 参考訳(メタデータ) (2026-04-21T03:55:02Z) - L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts [10.21556794551883]
L-MoE: LoRA エキスパートの軽量混合体について紹介する。
L-MoEは、MoEの専門家をタスク特化して低ランクのアダプタとして再定義する。
L-MoE の公式な数学的枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-19T08:44:25Z) - Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning [49.90176890917986]
マルチタスク学習(MTL)のための強力なフレームワークとして、Mixture-of-Experts(MoE)が登場した。
既存のMoE-MTL法は、しばしばシングルタスクで事前訓練されたバックボーンに依存し、冗長な適応と非効率的な知識共有に悩まされる。
低ランク適応 (LoRA) に基づく MoE の適応型共有専門家 (ASE) を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:49:19Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models [25.12002287083368]
MLLM(Multi-modal large language model)は、MoE技術を採用した。
MoEの専門家は、単にLPMからFFNパラメータを複製することで、しばしば発生する。
専門家の統一性は、MOEの専門家が単に LLM から FFN パラメータを複製することによって生じることが多いためである。
ルータの剛性は 専門家の選択に 静的リニアルータが 広く使われていることに由来する
論文 参考訳(メタデータ) (2025-05-28T08:38:39Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。