論文の概要: Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization
- arxiv url: http://arxiv.org/abs/2502.19261v1
- Date: Wed, 26 Feb 2025 16:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:44.221637
- Title: Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization
- Title(参考訳): ドロップアップサイクル:部分的再初期化を伴うエキスパートのスパースミックスの訓練
- Authors: Taishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki,
- Abstract要約: エキスパートの混合(MoE)アーキテクチャは、同等のキャパシティの密度の高いモデルと比較して、トレーニングと推論のコストを著しく削減します。
アップサイクリング(Upcycling)は、トレーニング済みの高密度モデルを使用してMoEモデルを初期化し、トレーニングするアプローチである。
ドロップアップサイクルは、事前訓練された高密度モデルの知識を活用しながら、重量の一部を統計的に再出発させるという、一見矛盾する2つのアプローチを組み合わせたものである。
- 参考スコア(独自算出の注目度): 18.271311365080802
- License:
- Abstract: The Mixture of Experts (MoE) architecture reduces the training and inference cost significantly compared to a dense model of equivalent capacity. Upcycling is an approach that initializes and trains an MoE model using a pre-trained dense model. While upcycling leads to initial performance gains, the training progresses slower than when trained from scratch, leading to suboptimal performance in the long term. We propose Drop-Upcycling - a method that effectively addresses this problem. Drop-Upcycling combines two seemingly contradictory approaches: utilizing the knowledge of pre-trained dense models while statistically re-initializing some parts of the weights. This approach strategically promotes expert specialization, significantly enhancing the MoE model's efficiency in knowledge acquisition. Extensive large-scale experiments demonstrate that Drop-Upcycling significantly outperforms previous MoE construction methods in the long term, specifically when training on hundreds of billions of tokens or more. As a result, our MoE model with 5.9B active parameters achieves comparable performance to a 13B dense model in the same model family, while requiring approximately 1/4 of the training FLOPs. All experimental resources, including source code, training data, model checkpoints and logs, are publicly available to promote reproducibility and future research on MoE.
- Abstract(参考訳): エキスパートの混合(MoE)アーキテクチャは、同等のキャパシティの密集したモデルと比較して、トレーニングと推論のコストを大幅に削減する。
アップサイクリング(Upcycling)は、トレーニング済みの高密度モデルを使用してMoEモデルを初期化し、トレーニングするアプローチである。
アップサイクリングは初期のパフォーマンス向上につながるが、トレーニングはスクラッチからトレーニングするよりも遅く、長期的には準最適パフォーマンスにつながる。
本稿では,この問題を効果的に解決する手法であるDrop-Upcyclingを提案する。
ドロップアップサイクルは、事前訓練された高密度モデルの知識を活用しながら、重量の一部を統計的に再出発させるという、一見矛盾する2つのアプローチを組み合わせたものである。
このアプローチは専門家の専門化を戦略的に促進し、知識獲得におけるMoEモデルの効率を大幅に向上させる。
大規模な実験により、ドロップアップサイクルは、何百億ものトークンのトレーニングを行う場合など、これまでのMoE建設手法よりも長期にわたって大幅に優れていたことが示される。
その結果、5.9Bのアクティブパラメータを持つMoEモデルは、トレーニングFLOPの約1/4を必要としながら、同一モデルファミリーの13B高密度モデルに匹敵する性能を得ることができた。
ソースコード、トレーニングデータ、モデルチェックポイント、ログを含むすべての実験的なリソースは、再現性を促進し、将来のMoEの研究を促進するために公開されている。
関連論文リスト
- Scaling Laws for Upcycling Mixture-of-Experts Language Models [17.796361238003403]
大規模言語モデル(LLM)の事前トレーニングはリソース集約的であり、ハイエンドのGPUクラスタでも数ヶ月のトレーニング時間を必要とすることが多い。
そのような計算要求を緩和する2つのアプローチがある: より小さなモデルを再利用して、より大きなモデルをトレーニングする(アップサイクル)、そして、Mix-of-experts (MoE)のような計算効率の良いモデルを訓練する。
論文 参考訳(メタデータ) (2025-02-05T09:11:13Z) - Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。
提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。
トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文 参考訳(メタデータ) (2024-12-13T08:22:19Z) - Sparse Upcycling: Inference Inefficient Finetuning [4.988895645799531]
また, 連続事前学習(CPT)と比較して20%以上の改善が得られた。
しかし、これはかなりの推論コストが伴うため、より大きなモデルに対する高要求の推論設定では40%の遅延が発生している。
論文 参考訳(メタデータ) (2024-11-13T19:02:36Z) - MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - Upcycling Large Language Models into Mixture of Experts [27.50995991734999]
厳密な言語モデルをスパース・ミックス・オブ・エキスパート(MoE)モデルにリサイクルすることは、既に訓練されたモデルのモデル容量を増やすための効率的なアプローチである。
より高密度モデルトレーニングを継続して実施した。
また、ソフトマックス-then-topKエキスパートルーティングは、トップK-then-softmaxアプローチよりも改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-10T01:36:03Z) - AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies [36.645912291368546]
AquilaMoEは最先端のバイリンガル8*16BMixture of Experts (MoE)言語モデルで、それぞれ16億のパラメータを持つ8人のエキスパートが参加する。
このアプローチは、2段階のプロセスを通じてデータ要求を最小限にしながら、パフォーマンスを最適化する。
我々は16Bモデルと8*16B AquilaMoEモデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-08-13T02:07:00Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。
これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文 参考訳(メタデータ) (2024-06-03T03:58:41Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。