Fugu-MT 論文翻訳(概要): JetMoE: Reaching Llama2 Performance with 0.1M Dollars

論文の概要: JetMoE: Reaching Llama2 Performance with 0.1M Dollars

arxiv url: http://arxiv.org/abs/2404.07413v1
Date: Thu, 11 Apr 2024 00:52:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 15:18:26.824715
Title: JetMoE: Reaching Llama2 Performance with 0.1M Dollars
Title（参考訳）: JetMoE: 0.1MドルでLlama2のパフォーマンスを向上
Authors: Yikang Shen, Zhen Guo, Tianle Cai, Zengyi Qin,
Abstract要約: このレポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介します。低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。
参考スコア（独自算出の注目度）: 25.25279860924004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable results, but their increasing resource demand has become a major obstacle to the development of powerful and accessible super-human intelligence. This report introduces JetMoE-8B, a new LLM trained with less than $0.1 million, using 1.25T tokens from carefully mixed open-source corpora and 30,000 H100 GPU hours. Despite its low cost, the JetMoE-8B demonstrates impressive performance, with JetMoE-8B outperforming the Llama2-7B model and JetMoE-8B-Chat surpassing the Llama2-13B-Chat model. These results suggest that LLM training can be much more cost-effective than generally thought. JetMoE-8B is based on an efficient Sparsely-gated Mixture-of-Experts (SMoE) architecture, composed of attention and feedforward experts. Both layers are sparsely activated, allowing JetMoE-8B to have 8B parameters while only activating 2B for each input token, reducing inference computation by about 70% compared to Llama2-7B. Moreover, JetMoE-8B is highly open and academia-friendly, using only public datasets and training code. All training parameters and data mixtures have been detailed in this report to facilitate future efforts in the development of open foundation models. This transparency aims to encourage collaboration and further advancements in the field of accessible and efficient LLMs. The model weights are publicly available at https://github.com/myshell-ai/JetMoE.
Abstract（参考訳）: 大規模言語モデル(LLM)は目覚ましい成果を上げているが、その資源需要の増加は、強力でアクセスしやすい超人的知能の発展の大きな障害となっている。このレポートでは、慎重に混合されたオープンソースのコーパスと30,000 H100 GPU時間から1.25Tトークンを使用して、0.1M未満でトレーニングされた新しいLLMであるJetMoE-8Bを紹介する。低コストにもかかわらず、JetMoE-8BはLlama2-7Bモデルより優れ、JetMoE-8B-ChatはLlama2-13B-Chatモデルより優れていた。これらの結果から, LLMトレーニングは一般的に考えられているよりもはるかに費用対効果が高いことが示唆された。 JetMoE-8Bは、注意とフィードフォワードの専門家で構成された効率的なSmoEアーキテクチャに基づいている。どちらの層もわずかに活性化され、JetMoE-8Bは入力トークンごとに2Bしか活性化せず、8Bパラメータを持つことができ、Llama2-7Bと比較して推論計算を約70%削減できる。さらにJetMoE-8Bは、公開データセットとトレーニングコードのみを使用して、非常にオープンで、アカデミックフレンドリーである。本報告では,すべてのトレーニングパラメータとデータ混合物について詳述し,オープンファンデーションモデルの開発における今後の取り組みを促進する。この透明性は、アクセス可能で効率的なLLM分野におけるコラボレーションとさらなる進歩を促進することを目的としている。モデルウェイトはhttps://github.com/myshell-ai/JetMoE.comで公開されている。

関連論文リスト

Zebra-Llama: Towards Extremely Efficient Hybrid Models [23.023849840907594]
大規模言語モデル(LLM)に代わる実用的でスケーラブルな代替案を提案する。 Zebra-LlamaはState Space Models (SSM)とMulti-head Latent Attention (MLA)レイヤを組み合わせて、事前訓練されたトランスフォーマーから知識を効率的に転送する。 Zebra-Llama Transformerの精度は7-11Bのトレーニングトークンと8Bの教師しか使用していない。
論文参考訳（メタデータ） (2025-05-22T20:39:57Z)
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [60.02032710118597]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T14:30:11Z)
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model [90.97590557247528]
本技術報告は,映像生成基盤モデルをトレーニングするための費用効率のよい戦略を提示する。約70億のパラメータを持つ中規模の研究モデルであるSeaweed-7Bを,665,000 H100 GPU時間を用いてスクラッチからトレーニングした。適度な計算資源で訓練されているにもかかわらず、Seaweed-7Bは高い競争力を発揮している。
論文参考訳（メタデータ） (2025-04-11T16:46:20Z)
Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。 Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文参考訳（メタデータ） (2025-03-07T04:43:39Z)
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。 CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-06T14:05:30Z)
Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文参考訳（メタデータ） (2024-12-13T08:22:19Z)
MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文参考訳（メタデータ） (2024-10-15T19:22:27Z)
OLMoE: Open Mixture-of-Experts Language Models [180.19698806071867]
OLMoEは、Sparse Mixture-of-Experts (MoE)を利用した、完全にオープンで最先端の言語モデルである。 OLMoE-1B-7Bは70億(B)のパラメータを持つが、入力トークンごとに1Bしか使用しない。 5兆のトークンで事前トレーニングし、さらにOLMoE-1B-7B-インストラクトを作成するように適応します。
論文参考訳（メタデータ） (2024-09-03T17:08:20Z)
AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies [36.645912291368546]
AquilaMoEは最先端のバイリンガル8*16BMixture of Experts (MoE)言語モデルで、それぞれ16億のパラメータを持つ8人のエキスパートが参加する。このアプローチは、2段階のプロセスを通じてデータ要求を最小限にしながら、パフォーマンスを最適化する。我々は16Bモデルと8*16B AquilaMoEモデルの訓練に成功した。
論文参考訳（メタデータ） (2024-08-13T02:07:00Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2～4ドル削減することができる。本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-08T14:39:49Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。 Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文参考訳（メタデータ） (2023-01-03T15:11:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。