論文の概要: 52B to 1T: Lessons Learned via Tele-FLM Series
- arxiv url: http://arxiv.org/abs/2407.02783v1
- Date: Wed, 3 Jul 2024 03:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 15:44:50.194788
- Title: 52B to 1T: Lessons Learned via Tele-FLM Series
- Title(参考訳): 52Bから1T:Tele-FLMシリーズで学んだ教訓
- Authors: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang,
- Abstract要約: 我々は、SFTデータ構築のための"less is more"アプローチをサポートするTele-FLM-52B上のSupervised Fine-tuning(SFT)について論じる。
520億から102億へと、そしてその後1兆のパラメータへと、モデルを段階的に成長させるためのベストプラクティスに関する実験と分析を実演する。
我々は、さらなるトレーニングと研究を進めるために、Tele-FLM-1Tと呼ばれる1Tモデルのチェックポイントをオープンソース化する。
- 参考スコア(独自算出の注目度): 96.19923831660266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) represent a significant stride toward Artificial General Intelligence. As scaling laws underscore the potential of increasing model sizes, the academic community has intensified its investigations into LLMs with capacities exceeding 50 billion parameters. This technical report builds on our prior work with Tele-FLM (also known as FLM-2), a publicly available 52-billion-parameter model. We delve into two primary areas: we first discuss our observation of Supervised Fine-tuning (SFT) on Tele-FLM-52B, which supports the "less is more" approach for SFT data construction; second, we demonstrate our experiments and analyses on the best practices for progressively growing a model from 52 billion to 102 billion, and subsequently to 1 trillion parameters. We will open-source a 1T model checkpoint, namely Tele-FLM-1T, to advance further training and research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人工知能への重要な一歩である。
スケール法がモデルサイズを拡大する可能性を強調しているため、学術コミュニティは、500億以上のパラメータを持つLCMに関する調査を強化した。
この技術報告は、52ビリオンパラメーターモデルであるTele-FLM(FLM-2としても知られる)を使った以前の研究に基づいています。
我々はまず,SFTデータ構築における「不要な」アプローチをサポートするTele-FLM-52B上でのスーパーバイザードファインチューニング(SFT)の観察について検討する。
我々は、さらなるトレーニングと研究を進めるために、Tele-FLM-1Tと呼ばれる1Tモデルのチェックポイントをオープンソース化する。
関連論文リスト
- MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity [18.865266475439135]
MARM(Memory Augmented Recommendation Model)を提案する。
RecSysモデルの場合、モデルパラメータと比較して計算複雑性のFLOPは、注意深い制御を必要とするより高価な要素である。
論文 参考訳(メタデータ) (2024-11-14T13:22:41Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - AstroPT: Scaling Large Observation Models for Astronomy [0.0]
我々は、100万から210億のパラメータに増大する基盤モデルをトレーニングし、AstroPTがテキストモデルに類似した飽和ログスケーリング法に従うことを発見した。
私たちは、共同コミュニティ開発がオープンソースの大規模観測モデルの実現への最良の道のりだと信じています。
論文 参考訳(メタデータ) (2024-05-23T18:00:00Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。