Fugu-MT 論文翻訳(概要): Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training

論文の概要: Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training

arxiv url: http://arxiv.org/abs/2405.03133v1
Date: Mon, 6 May 2024 03:06:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 14:54:58.390921
Title: Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training
Title（参考訳）: Lory: 自己回帰型言語モデル事前学習のための完全微分可能なミックス・オブ・エクササイズ
Authors: Zexuan Zhong, Mengzhou Xia, Danqi Chen, Mike Lewis,
Abstract要約: 私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 73.90260246781435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-experts (MoE) models facilitate efficient scaling; however, training the router network introduces the challenge of optimizing a non-differentiable, discrete objective. Recently, a fully-differentiable MoE architecture, SMEAR, was proposed (Muqeeth et al., 2023), which softly merges experts in the parameter space; nevertheless, its effectiveness was only demonstrated in downstream fine-tuning on classification tasks. In this paper, we present Lory, the first approach that scales such architectures to autoregressive language model pre-training. Lory introduces two key techniques: (1) a causal segment routing strategy that achieves high efficiency for expert merging operations while preserving the autoregressive nature of language models; (2) a similarity-based data batching method that encourages expert specialization by grouping similar documents in training instances. We pre-train a series of Lory models on 150B tokens from scratch, with up to 32 experts and 30B (1.5B active) parameters. Experimental results show significant performance gains over parameter-matched dense models on both perplexity (+13.9%) and a variety of downstream tasks (+1.5%-11.1%). Despite segment-level routing, Lory models achieve competitive performance compared to state-of-the-art MoE models with token-level routing. We further demonstrate that the trained experts in Lory capture domain-level specialization without supervision. Our work highlights the potential of fully-differentiable MoE architectures for language model pre-training and advocates future research in this area.
Abstract（参考訳）: Mixture-of-experts (MoE) モデルは効率的なスケーリングを容易にするが、ルータネットワークのトレーニングでは、微分不可能で離散的な目的を最適化するという課題が紹介されている。近年,パラメータ空間のエキスパートをソフトにマージする完全微分可能なMOEアーキテクチャSMEAR(Muqeeth et al , 2023)が提案されている。本稿では,このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介する。 Lory氏は,(1)言語モデルの自己回帰性を保ちながら,専門家のマージ作業において高い効率を達成する因果セグメントルーティング戦略,(2)類似性に基づくデータバッチ化手法,の2つを紹介した。私たちは、最大32人のエキスパートと30B(アクティブ)パラメータを持つ150Bトークンで、一連のLoryモデルをスクラッチからトレーニングしました。実験の結果、パラメータマッチングされた高密度モデル(+13.9%)と様々な下流タスク(+1.5%-11.1%)において、大きな性能向上を示した。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。さらに、Larryの訓練を受けた専門家が、監督なしにドメインレベルの専門化を捉えていることを実証する。我々の研究は、言語モデル事前学習のための完全微分可能なMoEアーキテクチャの可能性を強調し、この分野における将来の研究を提唱する。

関連論文リスト

Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文参考訳（メタデータ） (2025-09-30T16:56:44Z)
Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts [18.18231276284727]
Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
論文参考訳（メタデータ） (2025-09-23T02:07:14Z)
DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-04-01T11:14:19Z)
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [7.230514235208748]
我々は、変圧器モデルを等価な専門家グループに分解するUnion-of-Experts (UoE)を提案する。言語モデリングタスクでは、最高の性能のMoE法と比較して、UoEはパープレキシティの平均2.38の削減を実現している。画像分類では、最高のモデルよりも平均精度が1.75%向上する。
論文参考訳（メタデータ） (2025-03-04T11:01:25Z)
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。本稿では,BAM(Branch-Attend-Mix)を提案する。 5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文参考訳（メタデータ） (2024-08-15T17:19:12Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文参考訳（メタデータ） (2024-04-25T08:34:21Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。