論文の概要: Yuan 2.0-M32: Mixture of Experts with Attention Router
- arxiv url: http://arxiv.org/abs/2405.17976v1
- Date: Tue, 28 May 2024 09:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:28:09.164529
- Title: Yuan 2.0-M32: Mixture of Experts with Attention Router
- Title(参考訳): 人民元2.0-M32:専門家とアテンションルータの混成
- Authors: Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen,
- Abstract要約: Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。
新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。
Yuan 2.0-M32は、コーディング、数学、および様々な専門分野における競争力を示し、40Bのアクティブパラメータは3.7B、トークン当たり7.4GFlopsで、どちらもLlama3の1/19のみである。
- 参考スコア(独自算出の注目度): 30.8849836244273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a mixture-of-experts architecture with 32 experts of which 2 experts are active. A new router network, Attention Router, is proposed and adopted for a more efficient selection of experts, which boosts the accuracy of 3.8% compared to the model with classical router network. Yuan 2.0-M32 is trained with 2000B tokens from scratch, and the training computation consumption is only 9.25% of a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates competitive capability on coding, math, and various domains of expertise, with only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8 respectively. The models and source codes of Yuan 2.0-M32 are released at Github.
- Abstract(参考訳): Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。
新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。
Yuan 2.0-M32は2000Bトークンをゼロからトレーニングしており、トレーニング計算の消費量は同じパラメータスケールの密度モデルの9.25%に過ぎない。
Yuan 2.0-M32はコーディング、数学、および様々な専門分野の競争力を示し、40Bのアクティブパラメータは3.7B、トークン当たり7.4GFlops 前処理はLlama3-70Bの1/19のみである。
Yuan 2.0-M32 は MATH と ARC-Challenge のベンチマークで Llama3-70B を上回っ、それぞれ 55.89 と 95.8 である。
Yuan 2.0-M32のモデルとソースコードはGithubで公開されている。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent [84.84355125916994]
Hunyuan-Largeは、オープンソースのTransformerベースのエキスパートモデルのミックスである。
我々は,Hunyuan-Largeの優れた性能を,様々なベンチマークで徹底的に評価する。
Hunyuan-Largeの主な実践は、以前の文献より大きい大規模合成データである。
論文 参考訳(メタデータ) (2024-11-04T16:56:26Z) - GRIN: GRadient-INformed MoE [132.87651078514122]
Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、密度の高いモデルよりも効果的にスケールする。
エキスパートルーティングのためのスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入する。
我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。
論文 参考訳(メタデータ) (2024-09-18T17:00:20Z) - Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [289.9290405258526]
我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。
MMLUでは69%、MTベンチでは8.38である。
本稿では, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3モデルを紹介する。
論文 参考訳(メタデータ) (2024-04-22T14:32:33Z) - Mixtral of Experts [57.411379935325435]
Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。
Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。
また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B - Instructという命令に従うように微調整されたモデルも提供する。
論文 参考訳(メタデータ) (2024-01-08T18:47:34Z) - Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文 参考訳(メタデータ) (2023-02-10T04:22:25Z) - Robust Segmentation Models using an Uncertainty Slice Sampling Based
Annotation Workflow [5.051373749267151]
本稿では,3次元医療ボリュームのセマンティックセグメンテーションのための不確実スライスサンプリング(USS)戦略を提案する。
多地点データを用いた肝セグメンテーション作業におけるUSSの有効性を示す。
論文 参考訳(メタデータ) (2021-09-30T06:56:11Z) - Utilizing Ensemble Learning for Performance and Power Modeling and
Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks [0.0]
本稿では,アンサンブル学習を用いて,線形,非線形,木/木に基づく機械学習手法を組み合わせる。
2つの並列癌ディープラーニングCANDLEベンチマーク(NT3とP1B2)のために収集したデータセットを使用する。
P1B2は最大61.15%,P1B2は最大62.58%,P1B2は最大55.81%,NT3は最大52.60%の省エネルギーを実現した。
論文 参考訳(メタデータ) (2020-11-12T21:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。