論文の概要: Scaling Efficient LLMs
- arxiv url: http://arxiv.org/abs/2402.14746v2
- Date: Mon, 06 Jan 2025 18:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:30.667443
- Title: Scaling Efficient LLMs
- Title(参考訳): LLMのスケーリング効率
- Authors: B. N. Kausik,
- Abstract要約: 我々は,学習コーパス上で所望の精度を達成できる最少パラメータを持つLLMを,効率的なLLMに問い合わせる。
その結果、(1)学習コーパスに表されるスキルの数を2倍にし、(2)効率のよいLLMにはおよそ18倍のスケールが必要であり、(2)自然学習コーパスのパラメータ数NとDを$Npropto D0.24としてスケールし、(3)LLMのパラメータ数がトレーニングコーパスのユニークなシーケンスの数よりも小さい場合、スケールアップは創発的なスキルを明らかにすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Trained LLMs are typically sparse in that most of the parameters are zero, raising questions on efficiency. In response, we inquire into efficient LLMs, i.e. those with the fewest parameters that achieve the desired accuracy on a training corpus. Specifically, we compare theoretical and empirical estimates for training loss to obtain upper and lower bounds on the number of unique sequences in a natural training corpus as a function of its size. Our result implies (1) to double the number of skills represented in a training corpus, the corpus must scale roughly eighteen fold (2) for efficient LLMs, the number of parameters N and the size D of a natural training corpus scale as $N \propto D^{0.24} (3) if the number of parameters of an LLM is smaller than the number of unique sequences in the training corpus, scaling up can uncover emergent skills.
- Abstract(参考訳): 訓練されたLLMは通常、パラメータの大部分がゼロであることに乏しく、効率性に関する疑問を提起する。
そこで我々は,学習コーパス上で所望の精度を達成できる最少パラメータを持つLLMを,効率的なLLMに問い合わせる。
具体的には、学習損失の理論的および経験的推定値を比較し、その大きさの関数として自然学習コーパスにおける一意配列の個数に関する上下境界を求める。
その結果、(1)学習コーパスに表されるスキルの数を2倍にし、(2)効率のよいLLMに対しておよそ18倍にスケールし、(2)自然学習コーパスのパラメータNとサイズDを$N \propto D^{0.24}としてスケールさせ、(3)LLMのパラメータの数がトレーニングコーパスのユニークなシーケンスの数よりも小さい場合、スケールアップは創発的スキルを明らかにすることができる。
関連論文リスト
- Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。
我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。
対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文 参考訳(メタデータ) (2024-10-16T07:45:56Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。
最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。
本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:14:21Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。