論文の概要: EOE: Evolutionary Optimization of Experts for Training Language Models
- arxiv url: http://arxiv.org/abs/2509.24436v1
- Date: Mon, 29 Sep 2025 08:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.856226
- Title: EOE: Evolutionary Optimization of Experts for Training Language Models
- Title(参考訳): EOE: 言語モデルを訓練するためのエキスパートの進化的最適化
- Authors: Yingshi Chen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の学習のための進化的枠組みを提案する。
実験では、最高の専門家がフルモデルとほぼ同じ精度で達成できることが示されている。
各ステップでトレーニングされる専門家は1人なので、トレーニングはメモリをはるかに少なくし、スループットもはるかに高くなります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an evolutionary framework for the training of large language models(LLM). The models are divided into several experts(sub-networks), which have the same structure but different parameter values. Only one expert is trained at each step. After the classical AdamW optimization, some evolutionary operators(crossover, PSO, and mutation) act on the tensor weights between the current expert and the best expert. So current expert would learn the experience of best expert. The direction of best expert would help current expert's loss decrease faster. Finally, only save the weight of the best expert. Experiments show that best expert would achieve nearly the same accuracy as the full model. This would greatly reduce the size of the model for inference. Since only one expert is trained at each step, the training needs much less memory and has much higher throughput. Experiments show that the throughput would accelerate more than ten times! Our source code is available. It's a pure c++/cu framework, which is suitable for easy deployment on PCs and edge computing devices.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の学習のための進化的枠組みを提案する。
モデルは複数の専門家(サブネットワーク)に分けられ、同じ構造だがパラメータ値が異なる。
各ステップで1人の専門家のみがトレーニングを受けます。
古典的なアダムW最適化の後、いくつかの進化作用素(クロスオーバー、PSO、突然変異)は、現在の専門家と最高の専門家の間のテンソル重みに作用する。
ですから,現在の専門家は,最高の専門家の経験を学びます。
最高の専門家の方向性は、現在の専門家の損失の減少を早めるのに役立つだろう。
最後に、最高の専門家の体重を減らしてください。
実験では、最高の専門家がフルモデルとほぼ同じ精度で達成できることが示されている。
これにより、推論のためのモデルのサイズが大幅に削減される。
各ステップでトレーニングされる専門家は1人なので、トレーニングはメモリをはるかに少なくし、スループットもはるかに高くなります。
実験によると、スループットは10倍以上加速します!
私たちのソースコードは利用可能です。
純粋なc++/cuフレームワークで、PCやエッジコンピューティングデバイスに簡単にデプロイするのに適しています。
関連論文リスト
- No Need for Learning to Defer? A Training Free Deferral Framework to Multiple Experts through Conformal Prediction [3.746889836344766]
本稿では,共形予測に基づくエキスパート推論のための訓練不要,モデル非依存,エキスパート非依存のフレームワークを提案する。
我々の手法は、スタンドアローンモデルと最強の専門家の両方より一貫して優れています。
論文 参考訳(メタデータ) (2025-09-16T02:01:21Z) - DarwinLM: Evolutionary Structured Pruning of Large Language Models [49.55509443720372]
大規模言語モデル(LLM)は様々なNLPタスクで大きな成功を収めた。
構造化プルーニングは、モデルを圧縮し、エンドツーエンドのスピード改善を直接提供する、効果的なソリューションを提供する。
本研究では,構造化プルーニングの訓練手法であるDarwinLMを提案する。
論文 参考訳(メタデータ) (2025-02-11T18:59:35Z) - MoIN: Mixture of Introvert Experts to Upcycle an LLM [15.182215869841789]
本稿では,フルモデルの事前学習を継続することなく,既存の大規模言語モデルを改善することを目的とする。
このアイデアは、事前学習データを意味のあるグループに分割し、各サブセットで専門家を訓練する。
推論中、入力されたクエリは、最初に最も関連する専門家にルーティングされ、その後、フォワードパスのためにベースモデルにロードされる。
論文 参考訳(メタデータ) (2024-10-13T01:11:04Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Mixture-of-Experts with Expert Choice Routing [44.777850078713634]
以前の作業では、トップk関数を使用して各トークンに一定数の専門家を割り当てていた。
本稿では,専門家選択手法を用いた異種混合実験を提案する。
本手法は, トレーニング収束時間を2倍以上改善する。
論文 参考訳(メタデータ) (2022-02-18T17:46:11Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - ACE: Ally Complementary Experts for Solving Long-Tailed Recognition in
One-Shot [35.309006275276374]
一段長尾認識法は、全体的な性能を「シーソー」方式で改善する。
既存のアルゴリズムは、そのようなトレードオフを多段階のトレーニングプロセスによって回避する。
我々は,一段階の長尾認識手法,アリー補完専門家(ACE)を提案する。
論文 参考訳(メタデータ) (2021-08-05T05:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。