論文の概要: FLM-101B: An Open LLM and How to Train It with $100K Budget
- arxiv url: http://arxiv.org/abs/2309.03852v1
- Date: Thu, 7 Sep 2023 17:07:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:10:14.608369
- Title: FLM-101B: An Open LLM and How to Train It with $100K Budget
- Title(参考訳): FLM-101B:オープンLCMと1万ドルの予算でトレーニングする方法
- Authors: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan,
Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang
- Abstract要約: 大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。
LLMは違法に高価であり、少数のメジャープレイヤーだけがトレーニングを受けることが可能である。
101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。
- 参考スコア(独自算出の注目度): 64.7903965253781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in NLP and
multimodal tasks. Despite these successes, their development faces two main
challenges: (i) high computational cost; and (ii) difficulty in conducting fair
and objective evaluations. LLMs are prohibitively expensive, making it feasible
for only a few major players to undertake their training, thereby constraining
both research and application opportunities. This underscores the importance of
cost-effective LLM training. In this paper, we utilize a growth strategy to
significantly reduce LLM training cost. We demonstrate that an LLM with 101B
parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a
systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to
existing evaluations that focus more on knowledge-oriented abilities. We
introduce our benchmark including evaluations on important aspects of
intelligence including symbolic mapping, itrule understanding, pattern mining,
and anti-interference. Such evaluations minimize the potential impact of
memorization. Experimental results show that our model FLM-101B, trained with a
budget of $100K, achieves comparable performance to powerful and well-known
models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with
contexts unseen in training data. The checkpoint of FLM-101B will be
open-sourced at https://huggingface.co/CofeAI/FLM-101B.
- Abstract(参考訳): 大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。
これらの成功にもかかわらず、彼らの開発は2つの大きな課題に直面している。
(i)高い計算コスト、及び
(ii)公平かつ客観的な評価を行うのが困難である。
LLMは違法に高価であり、少数の主要プレイヤーだけがトレーニングを受けられるため、研究と応用の両方の機会を制限できる。
これはコスト効率の高いllmトレーニングの重要性を強調するものだ。
本稿では,成長戦略を用いてllmトレーニングコストを大幅に削減する。
101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。
また,LLMのIQ評価に体系的な評価パラダイムを導入し,知識指向能力を重視した既存の評価を補完する。
本ベンチマークでは,シンボルマッピング,イトルル理解,パターンマイニング,対干渉など,インテリジェンスの重要な側面を評価する。
このような評価は記憶の潜在的な影響を最小限に抑える。
実験結果から,本モデルflm-101bは1kの予算で訓練され,gpt-3やglm-130bといった強力でよく知られたモデルと同等の性能を達成していることがわかった。
FLM-101Bのチェックポイントはhttps://huggingface.co/CofeAI/FLM-101Bでオープンソース化される。
関連論文リスト
- CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。
モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。
6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文 参考訳(メタデータ) (2025-02-16T01:05:16Z) - Control LLM: Controlled Evolution for Intelligence Retention in LLM [4.67235851066221]
並列事前学習および拡張トランスブロックを利用した新しいアプローチである textbfControl LLM を提案する。
CPT(Continuous Pre-Training)とCSFT(Continuous Supervised Fine-Tuning)における制御LDMの有効性を示す実験
既存の手法を超越し、同じベースモデルからチューニングされたオープンソースモデルの中でSOTAを実現する。
論文 参考訳(メタデータ) (2025-01-19T08:06:06Z) - Sparsity-Accelerated Training for Large Language Models [20.86225596276327]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクの習熟度を示した。
LLMは、連続的な事前訓練や教師付き微調整など、追加の訓練を必要とすることが多い。
本稿では,この学習プロセスの迅速化のために,事前学習したLLMのエンハンスパシティを活用することを提案する。
論文 参考訳(メタデータ) (2024-06-03T14:56:09Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Optimizing Distributed Training on Frontier for Large Language Models [7.251642875697334]
数十億のパラメータで大規模言語モデル(LLM)を訓練することは、重大な課題となり、かなりの計算資源を必要とする。
本研究では、世界初のエクサスケールスーパーコンピュータであるFrontierからこの計算を抽出するための効率的な分散トレーニング戦略を探求する。
論文 参考訳(メタデータ) (2023-12-20T02:03:15Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - Knowledge Inheritance for Pre-trained Language Models [57.51305807391381]
我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
論文 参考訳(メタデータ) (2021-05-28T14:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。