論文の概要: Layer-adaptive Expert Pruning for Pre-Training of Mixture-of-Experts Large Language Models
- arxiv url: http://arxiv.org/abs/2601.14327v1
- Date: Tue, 20 Jan 2026 08:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.098604
- Title: Layer-adaptive Expert Pruning for Pre-Training of Mixture-of-Experts Large Language Models
- Title(参考訳): 実験用混合言語モデルの事前学習のための層適応型エキスパートプルーニング
- Authors: YuanLab. ai, Shawn Wu, Jiangang Luo, Tong Yu, Darcy Chen, Sean Wang, Xudong Zhao, Louie Li, Claire Wang, Hunter He, Carol Wang, Allen Wang,
- Abstract要約: 本研究では,Mixture-of-Experts (MoE) Large Language Models (LLMs) の事前学習段階に対するLayer-Adaptive Expert Pruning (LAEP)アルゴリズムを導入する。
総合的な実験により、LAEPはモデルのサイズを効果的に減らし、事前学習効率を大幅に改善することが示された。
特に、1010Bベースモデルをスクラッチから事前トレーニングする場合、LAEPはトレーニング効率を48.3%改善し、33.3%のパラメータ削減を実現している。
- 参考スコア(独自算出の注目度): 13.25114757425841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Mixture-of-Experts (MoE) Large Language Models (LLMs) deliver superior accuracy with a reduced number of active parameters, their pre-training represents a significant computationally bottleneck due to underutilized experts and limited training efficiency. This work introduces a Layer-Adaptive Expert Pruning (LAEP) algorithm designed for the pre-training stage of MoE LLMs. In contrast to previous expert pruning approaches that operate primarily in the post-training phase, the proposed algorithm enhances training efficiency by selectively pruning underutilized experts and reorganizing experts across computing devices according to token distribution statistics. Comprehensive experiments demonstrate that LAEP effectively reduces model size and substantially improves pre-training efficiency. In particular, when pre-training the 1010B Base model from scratch, LAEP achieves a 48.3\% improvement in training efficiency alongside a 33.3% parameter reduction, while still delivering excellent performance across multiple domains.
- Abstract(参考訳): Mixture-of-Experts (MoE) Large Language Models (LLMs) は、アクティブパラメータの削減により精度が向上するが、その事前学習は、未使用の専門家と限られた訓練効率のために、重要な計算上のボトルネックとなっている。
この研究は、MoE LLMの事前学習段階向けに設計された層適応エキスパート・プルーニング(LAEP)アルゴリズムを導入する。
学習終了後に主に機能する従来型のプルーニングアプローチとは対照的に,提案アルゴリズムは,未使用のエキスパートを選択的にプルーニングし,トークン分布統計に従ってコンピュータ機器をまたいだ専門家を再編成することにより,トレーニング効率を向上させる。
総合的な実験により、LAEPはモデルのサイズを効果的に減らし、事前学習効率を大幅に改善することが示された。
特に、1010Bベースモデルをスクラッチから事前トレーニングする場合、LAEPは33.3%のパラメータ削減とともに、トレーニング効率の48.3倍の改善を実現し、同時に複数のドメインで優れたパフォーマンスを実現している。
関連論文リスト
- Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Making EfficientNet More Efficient: Exploring Batch-Independent
Normalization, Group Convolutions and Reduced Resolution Training [8.411385346896413]
我々は、新しいクラスのアクセラレーターであるGraphcore IPU上で、最先端のEfficientNetモデルの実用効率を改善することに重点を置いている。
i)グループ畳み込みに深い畳み込みを一般化すること、(ii)バッチ正規化性能とバッチ非依存統計量とを一致させるためにプロキシ正規化アクティベーションを追加すること、(iii)トレーニング解像度を下げることによる計算の削減と、高解像度で安価に微調整を行うことにより、このモデル群を拡張した。
論文 参考訳(メタデータ) (2021-06-07T14:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。