論文の概要: Quantifying the Capabilities of LLMs across Scale and Precision
- arxiv url: http://arxiv.org/abs/2405.03146v2
- Date: Wed, 8 May 2024 02:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 11:24:41.003354
- Title: Quantifying the Capabilities of LLMs across Scale and Precision
- Title(参考訳): LLMのスケールと精度における能力の定量化
- Authors: Sher Badshah, Hassan Sajjad,
- Abstract要約: 本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
- 参考スコア(独自算出の注目度): 12.879551933541345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scale is often attributed as one of the factors that cause an increase in the performance of LLMs, resulting in models with billion and trillion parameters. One of the limitations of such large models is the high computational requirements that limit their usage, deployment, and debugging in resource-constrained scenarios. Two commonly used alternatives to bypass these limitations are to use the smaller versions of LLMs (e.g. Llama 7B instead of Llama 70B) and lower the memory requirements by using quantization. While these approaches effectively address the limitation of resources, their impact on model performance needs thorough examination. In this study, we perform a comprehensive evaluation to investigate the effect of model scale and quantization on the performance. We experiment with two major families of open-source instruct models ranging from 7 billion to 70 billion parameters. Our extensive zero-shot experiments across various tasks including natural language understanding, reasoning, misinformation detection, and hallucination reveal that larger models generally outperform their smaller counterparts, suggesting that scale remains an important factor in enhancing performance. We found that larger models show exceptional resilience to precision reduction and can maintain high accuracy even at 4-bit quantization for numerous tasks and they serve as a better solution than using smaller models at high precision under similar memory requirements.
- Abstract(参考訳): スケールはしばしば、LLMのパフォーマンスが向上する要因の1つと考えられており、結果として数十億のパラメータを持つモデルが生成される。
このような大きなモデルの制限の1つは、リソース制約のあるシナリオでの使用、デプロイ、デバッグを制限する高い計算要求である。
これらの制限を回避するための2つの一般的な代替手段は、LLMのより小さなバージョン(例えばLlama 70Bの代わりにLlama 7B)を使用することと、量子化によるメモリ要求の低減である。
これらのアプローチはリソースの制限に効果的に対処するが、モデルの性能への影響は徹底的な検査が必要である。
本研究では,モデルスケールと量子化が性能に与える影響を総合評価する。
我々は、70億から70億のパラメータからなるオープンソースのインストラクションモデルの2つの主要なファミリーを実験した。
自然言語理解、推論、誤情報検出、幻覚など、さまざまなタスクにわたる大規模なゼロショット実験により、より大きなモデルがより小さなモデルを上回ることが判明した。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、多くのタスクに対して4ビット量子化でも高い精度を維持することができ、同様のメモリ要件下での高精度でより小さなモデルを使用するよりも優れた解法として機能することを発見した。
関連論文リスト
- Evaluating Quantized Large Language Models for Code Generation on Low-Resource Language Benchmarks [0.0]
本研究では,Lua符号生成タスクにおける5つの量子化符号LLMの性能を評価する。
その結果, 4ビット整数精度で量子化されたモデルは, 性能とモデルサイズとの最良のトレードオフをもたらすことが示唆された。
量子化は、70億のパラメータを持つ小さなLLMのアクセシビリティを高めるが、これらのLLMは全体的な低性能を示す。
論文 参考訳(メタデータ) (2024-10-18T15:50:59Z) - Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。
本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-09T09:45:01Z) - A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B [11.832907585157638]
本稿では、7Bから405Bのモデルにおける命令調整型LLMの性能を評価する。
我々は6つのタスクタイプ(常識Q&A、知識と言語理解、指示追従、幻覚検出、数学、対話)のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-09-17T10:31:37Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。