論文の概要: FLM-101B: An Open LLM and How to Train It with $100K Budget
- arxiv url: http://arxiv.org/abs/2309.03852v2
- Date: Sun, 17 Sep 2023 07:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:04:47.733562
- Title: FLM-101B: An Open LLM and How to Train It with $100K Budget
- Title(参考訳): FLM-101B:オープンLCMと1万ドルの予算でトレーニングする方法
- Authors: Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan,
Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang
- Abstract要約: 大規模言語モデル(LLM)は、NLPやマルチモーダルタスクなどにおいて顕著な成功を収めている。
これらの成功にもかかわらず、LLMの開発における主な課題は、(i)高い計算コスト、(ii)公正で客観的な評価である。
成長戦略によりLLMトレーニングコストを大幅に削減するソリューションを実証する。
IQテストにインスパイアされた我々は、知識指向能力に焦点を当てた既存の評価の上に、さらなる範囲の評価を統合する。
実験結果から,FLM-101Bと名づけられたFLM-101Bは,100万ドルの予算で訓練され,強力でよく知られた性能を達成していることがわかった。
- 参考スコア(独自算出の注目度): 64.7903965253781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in NLP and
multimodal tasks, among others. Despite these successes, two main challenges
remain in developing LLMs: (i) high computational cost, and (ii) fair and
objective evaluations. In this paper, we report a solution to significantly
reduce LLM training cost through a growth strategy. We demonstrate that a
101B-parameter LLM with 0.31T tokens can be trained with a budget of 100K US
dollars. Inspired by IQ tests, we also consolidate an additional range of
evaluations on top of existing evaluations that focus on knowledge-oriented
abilities. These IQ evaluations include symbolic mapping, rule understanding,
pattern mining, and anti-interference. Such evaluations minimize the potential
impact of memorization. Experimental results show that our model, named
FLM-101B, trained with a budget of 100K US dollars, achieves performance
comparable to powerful and well-known models, e.g., GPT-3 and GLM-130B,
especially on the additional range of IQ evaluations. The checkpoint of
FLM-101B is released at https://huggingface.co/CofeAI/FLM-101B.
- Abstract(参考訳): 大規模言語モデル(LLM)は、NLPやマルチモーダルタスクで顕著な成功を収めている。
これらの成功にもかかわらず、LLMの開発には2つの大きな課題がある。
(i)高い計算コスト、及び
(ii)公平で客観的な評価。
本稿では,成長戦略を通じてLLMトレーニングコストを大幅に削減する手法について報告する。
我々は、0.31tトークンを持つ101bパラメータのllmを、予算1万ドルでトレーニングできることを実証する。
IQテストにインスパイアされた我々は、知識指向能力に焦点を当てた既存の評価の上に、さらなる範囲の評価を統合する。
これらのIQ評価には、シンボリックマッピング、ルール理解、パターンマイニング、反干渉が含まれる。
このような評価は記憶の潜在的な影響を最小限に抑える。
実験結果から,FLM-101Bと命名された我々のモデルは,GPT-3 や GLM-130B などの強力でよく知られたモデルに匹敵する性能を達成し,特にIQ 評価のさらなる範囲で実現した。
FLM-101Bのチェックポイントはhttps://huggingface.co/CofeAI/FLM-101Bで公開されている。
関連論文リスト
- CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。
モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。
6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文 参考訳(メタデータ) (2025-02-16T01:05:16Z) - Control LLM: Controlled Evolution for Intelligence Retention in LLM [4.67235851066221]
並列事前学習および拡張トランスブロックを利用した新しいアプローチである textbfControl LLM を提案する。
CPT(Continuous Pre-Training)とCSFT(Continuous Supervised Fine-Tuning)における制御LDMの有効性を示す実験
既存の手法を超越し、同じベースモデルからチューニングされたオープンソースモデルの中でSOTAを実現する。
論文 参考訳(メタデータ) (2025-01-19T08:06:06Z) - Sparsity-Accelerated Training for Large Language Models [20.86225596276327]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクの習熟度を示した。
LLMは、連続的な事前訓練や教師付き微調整など、追加の訓練を必要とすることが多い。
本稿では,この学習プロセスの迅速化のために,事前学習したLLMのエンハンスパシティを活用することを提案する。
論文 参考訳(メタデータ) (2024-06-03T14:56:09Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Optimizing Distributed Training on Frontier for Large Language Models [7.251642875697334]
数十億のパラメータで大規模言語モデル(LLM)を訓練することは、重大な課題となり、かなりの計算資源を必要とする。
本研究では、世界初のエクサスケールスーパーコンピュータであるFrontierからこの計算を抽出するための効率的な分散トレーニング戦略を探求する。
論文 参考訳(メタデータ) (2023-12-20T02:03:15Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - Knowledge Inheritance for Pre-trained Language Models [57.51305807391381]
我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
論文 参考訳(メタデータ) (2021-05-28T14:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。