論文の概要: Scaling Efficient LLMs
- arxiv url: http://arxiv.org/abs/2402.14746v1
- Date: Thu, 22 Feb 2024 18:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:14:37.237198
- Title: Scaling Efficient LLMs
- Title(参考訳): LLMのスケーリング効率
- Authors: B.N. Kausik
- Abstract要約: 我々は,学習コーパス上で所望の精度を達成できる最少パラメータを持つLLMを,効率的なLLMに問い合わせる。
その結果、(1)学習コーパスで表現されるスキルの数を2倍にし、(2)効率の良いLCMでは3倍から5倍に、(2)パラメータの数は$N$と$D$の自然訓練コーパススケールは$N sim D0.58$ (3) LLMのパラメータの数がトレーニングコーパスのユニークなシーケンスの数より小さい場合、スケールアップは創発的スキルを明らかにすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trained LLMs are typically sparse in that most of the parameters are zero,
raising questions on efficiency. In response, we inquire into efficient LLMs,
i.e. those with the fewest parameters that achieve the desired accuracy on a
training corpus. Specifically, we compare theoretical and empirical estimates
for training loss at current scale to obtain upper and lower bounds on the
number of unique sequences in a natural training corpus as a function of its
size. Our result implies (1) to double the number of skills represented in a
training corpus, the corpus must scale roughly between three and five fold (2)
for efficient LLMs, the number of parameters $N$ and the size $D$ of a natural
training corpus scale as $N \sim D^{0.58}$ (3) if the number of parameters of
an LLM is smaller than the number of unique sequences in the training corpus,
scaling up can uncover emergent skills.
- Abstract(参考訳): 訓練されたLLMは通常、パラメータの大部分がゼロであることに乏しく、効率に関する疑問を提起する。
そこで我々は,学習コーパス上で所望の精度を達成できる最少パラメータを持つLLMを,効率的なLLMに問い合わせる。
具体的には,実規模でのトレーニング損失に対する理論的および経験的推定値を比較し,自然学習コーパスにおける固有シーケンス数の上・下限をその大きさの関数として求める。
その結果、(1)学習コーパスに表されるスキルの数を2倍にし、(2)効率の良いLCMでは3倍から5倍に、(2)パラメータの数は$N$と$D$の自然訓練コーパスのスケールは$N \sim D^{0.58}$ (3) LLMのパラメータの数がトレーニングコーパスのユニークなシーケンスの数より小さい場合、スケールアップは創発的スキルを明らかにすることができる。
関連論文リスト
- Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient
Framework [10.656788279434798]
本稿では,大規模事前学習に依存しない,シンプルで効率的な学習フレームワーク TLM を提案する。
4つの領域の8つの分類データセットにおいて、TLMは事前訓練された言語モデルよりも良い結果が得られる。
論文 参考訳(メタデータ) (2021-11-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。