論文の概要: 52B to 1T: Lessons Learned via Tele-FLM Series
- arxiv url: http://arxiv.org/abs/2407.02783v1
- Date: Wed, 3 Jul 2024 03:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-04 15:44:50.194788
- Title: 52B to 1T: Lessons Learned via Tele-FLM Series
- Title(参考訳): 52Bから1T:Tele-FLMシリーズで学んだ教訓
- Authors: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Chao Wang, Xinzhang Liu, Zihan Wang, Yu Zhao, Xin Wang, Yuyao Huang, Shuangyong Song, Yongxiang Li, Zheng Zhang, Bo Zhao, Aixin Sun, Yequan Wang, Zhongjiang He, Zhongyuan Wang, Xuelong Li, Tiejun Huang,
- Abstract要約: 我々は、SFTデータ構築のための"less is more"アプローチをサポートするTele-FLM-52B上のSupervised Fine-tuning(SFT)について論じる。
520億から102億へと、そしてその後1兆のパラメータへと、モデルを段階的に成長させるためのベストプラクティスに関する実験と分析を実演する。
我々は、さらなるトレーニングと研究を進めるために、Tele-FLM-1Tと呼ばれる1Tモデルのチェックポイントをオープンソース化する。
- 参考スコア(独自算出の注目度): 96.19923831660266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) represent a significant stride toward Artificial General Intelligence. As scaling laws underscore the potential of increasing model sizes, the academic community has intensified its investigations into LLMs with capacities exceeding 50 billion parameters. This technical report builds on our prior work with Tele-FLM (also known as FLM-2), a publicly available 52-billion-parameter model. We delve into two primary areas: we first discuss our observation of Supervised Fine-tuning (SFT) on Tele-FLM-52B, which supports the "less is more" approach for SFT data construction; second, we demonstrate our experiments and analyses on the best practices for progressively growing a model from 52 billion to 102 billion, and subsequently to 1 trillion parameters. We will open-source a 1T model checkpoint, namely Tele-FLM-1T, to advance further training and research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人工知能への重要な一歩である。
スケール法がモデルサイズを拡大する可能性を強調しているため、学術コミュニティは、500億以上のパラメータを持つLCMに関する調査を強化した。
この技術報告は、52ビリオンパラメーターモデルであるTele-FLM(FLM-2としても知られる)を使った以前の研究に基づいています。
我々はまず,SFTデータ構築における「不要な」アプローチをサポートするTele-FLM-52B上でのスーパーバイザードファインチューニング(SFT)の観察について検討する。
我々は、さらなるトレーニングと研究を進めるために、Tele-FLM-1Tと呼ばれる1Tモデルのチェックポイントをオープンソース化する。
関連論文リスト
- SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling [69.57918638435491]
テスト時間スケーリングは、大規模言語モデルの性能を向上させる重要な方法である。
異なるポリシーモデル、PRM、問題の難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か?
計算-最適TS戦略により、非常に小さなポリシーモデルがより大きなモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T17:30:23Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity [18.865266475439135]
MARM(Memory Augmented Recommendation Model)を提案する。
RecSysモデルの場合、モデルパラメータと比較して計算複雑性のFLOPは、注意深い制御を必要とするより高価な要素である。
論文 参考訳(メタデータ) (2024-11-14T13:22:41Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。
Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。
我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-07-11T09:56:51Z) - AstroPT: Scaling Large Observation Models for Astronomy [0.0]
我々は、100万から210億のパラメータに増大する基盤モデルをトレーニングし、AstroPTがテキストモデルに類似した飽和ログスケーリング法に従うことを発見した。
私たちは、共同コミュニティ開発がオープンソースの大規模観測モデルの実現への最良の道のりだと信じています。
論文 参考訳(メタデータ) (2024-05-23T18:00:00Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。