論文の概要: DIVE into MoE: Diversity-Enhanced Reconstruction of Large Language Models from Dense into Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2506.09351v1
- Date: Wed, 11 Jun 2025 03:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.27485
- Title: DIVE into MoE: Diversity-Enhanced Reconstruction of Large Language Models from Dense into Mixture-of-Experts
- Title(参考訳): DIVE into MoE:DenseからMixture-of-Expertsへの大規模言語モデルの多様性向上
- Authors: Yuchen Feng, Bowen Shen, Naibin Gu, Jiaxuan Zhao, Peng Fu, Zheng Lin, Weiping Wang,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャを持つ大規模言語モデル(LLM)は、パラメータのサブセットを選択的に活性化することにより、高いコスト効率を達成する。
MoE LLMの推論効率にもかかわらず、スクラッチからの豊富な専門家の訓練はかなりのオーバーヘッドを引き起こす。
DIVEという多様性向上手法を提案する。
DIVEはトレーニング効率を最小限の精度で達成し、既存のプルーニング法とMoE再構成法を同じ数のアクティベートパラメータで上回る。
- 参考スコア(独自算出の注目度): 16.816404016099202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) with the Mixture-of-Experts (MoE) architecture achieve high cost-efficiency by selectively activating a subset of the parameters. Despite the inference efficiency of MoE LLMs, the training of extensive experts from scratch incurs substantial overhead, whereas reconstructing a dense LLM into an MoE LLM significantly reduces the training budget. However, existing reconstruction methods often overlook the diversity among experts, leading to potential redundancy. In this paper, we come up with the observation that a specific LLM exhibits notable diversity after being pruned on different calibration datasets, based on which we present a Diversity-Enhanced reconstruction method named DIVE. The recipe of DIVE includes domain affinity mining, pruning-based expert reconstruction, and efficient retraining. Specifically, the reconstruction includes pruning and reassembly of the feed-forward network (FFN) module. After reconstruction, we efficiently retrain the model on routers, experts and normalization modules. We implement DIVE on Llama-style LLMs with open-source training corpora. Experiments show that DIVE achieves training efficiency with minimal accuracy trade-offs, outperforming existing pruning and MoE reconstruction methods with the same number of activated parameters.
- Abstract(参考訳): 大規模言語モデル (LLM) とMixture-of-Experts (MoE) アーキテクチャは,パラメータのサブセットを選択的に活性化することにより,高いコスト効率を実現する。
MoE LLMの推論効率にもかかわらず、広範囲の専門家をスクラッチから訓練することはかなりのオーバーヘッドを引き起こす一方、高密度のLEMをMoE LLMに再構成することは、トレーニング予算を大幅に削減する。
しかし、既存の再建手法はしばしば専門家の多様性を見落とし、潜在的な冗長性をもたらす。
そこで本研究では,異なるキャリブレーションデータセットを解析した結果,特定のLCMが顕著な多様性を示し,DIVEと呼ばれる多様性向上手法を提案する。
DIVEのレシピには、ドメイン親和性マイニング、プルーニングに基づく専門家の再構築、効率的な再トレーニングが含まれる。
具体的には、フィードフォワードネットワーク(FFN)モジュールのプルーニングと再組み立てを含む。
復元後、我々はルータ、専門家、正規化モジュール上でモデルを効率的に再訓練する。
オープンソースの学習コーパスを用いたLlamaスタイルのLLMにDIVEを実装した。
実験により,DIVEは最小限の精度でトレーニング効率を達成し,既存プルーニング法とMoE再建法とを同一数の活性パラメータで比較した。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - S'MoRE: Structural Mixture of Residual Experts for LLM Fine-tuning [17.579948649237497]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。
具体的には、S'MoREはエキスパートウェイトを階層的に低ランクに分解し、多層構造に相互接続した様々な順序の残基を生成する。
我々はS'MoREが従来のMoE(Mixture-of-LoRA)の「構造的柔軟性」を指数的順序で改善することを証明する。
論文 参考訳(メタデータ) (2025-04-08T20:54:00Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Empowering Few-Shot Relation Extraction with The Integration of Traditional RE Methods and Large Language Models [48.846159555253834]
Few-Shot Relation extract (FSRE)は自然言語処理(NLP)の研究者にアピールする
大規模言語モデル(LLM)の近年の出現により、多くの研究者が文脈学習(ICL)を通じてFSREを探求している。
論文 参考訳(メタデータ) (2024-07-12T03:31:11Z) - Intermediate Distillation: Data-Efficient Distillation from Black-Box LLMs for Information Retrieval [7.441679541836913]
textit Intermediate Distillationは、大規模な言語モデルをブラックボックスとして扱い、革新的なLLM-ranker-retrieverパイプラインを通じて知識を蒸留する。
提案手法は,1000のトレーニングインスタンスしか持たないレトリバーモデルの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-06-18T00:41:41Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。