論文の概要: dots.llm1 Technical Report
- arxiv url: http://arxiv.org/abs/2506.05767v1
- Date: Fri, 06 Jun 2025 05:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.342729
- Title: dots.llm1 Technical Report
- Title(参考訳): dots.llm1テクニカルレポート
- Authors: Bi Huo, Bin Tu, Cheng Qin, Da Zheng, Debing Zhang, Dongjie Zhang, En Li, Fu Guo, Jian Yao, Jie Lou, Junfeng Tian, Li Hu, Ran Zhu, Shengdong Chen, Shuo Liu, Su Guang, Te Wo, Weijun Zhang, Xiaoming Shi, Xinxin Peng, Xing Wu, Yawen Liu, Yuqiu Ji, Ze Wen, Zhenhai Liu, Zichao Li, Zilong Liao,
- Abstract要約: dots.llm1は142Bパラメータのうち14Bパラメータを活性化する大規模なMoEモデルである。
トレーニングと推論のコストを削減しつつ、最先端のモデルと同等のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 22.612448834536067
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mixture of Experts (MoE) models have emerged as a promising paradigm for scaling language models efficiently by activating only a subset of parameters for each input token. In this report, we present dots.llm1, a large-scale MoE model that activates 14B parameters out of a total of 142B parameters, delivering performance on par with state-of-the-art models while reducing training and inference costs. Leveraging our meticulously crafted and efficient data processing pipeline, dots.llm1 achieves performance comparable to Qwen2.5-72B after pretraining on 11.2T high-quality tokens and post-training to fully unlock its capabilities. Notably, no synthetic data is used during pretraining. To foster further research, we open-source intermediate training checkpoints at every one trillion tokens, providing valuable insights into the learning dynamics of large language models.
- Abstract(参考訳): Mixture of Experts (MoE)モデルは、入力トークンごとにパラメータのサブセットだけを活性化することで、言語モデルを効率的にスケールするための有望なパラダイムとして登場した。
本報告では,142Bパラメータから14Bパラメータを活性化する大規模MoEモデルである dots.llm1 について述べる。
dots.llm1は、精巧に作り上げられた効率的なデータ処理パイプラインを活用し、高品質な11.2Tトークンを事前トレーニングし、その機能を完全にアンロックするために後トレーニングした後、Qwen2.5-72Bに匹敵するパフォーマンスを達成する。
特に、事前訓練中に合成データを使用しない。
さらなる研究を促進するため、我々は1兆トークン毎の中間トレーニングチェックポイントをオープンソース化し、大規模言語モデルの学習力学に関する貴重な洞察を提供する。
関連論文リスト
- RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。