論文の概要: Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2307.08072v1
- Date: Sun, 16 Jul 2023 15:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:53:07.651245
- Title: Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study
- Title(参考訳): 量子化大規模言語モデルにおける創発的能力--実証的研究
- Authors: Peiyu Liu, Zikang Liu, Ze-Feng Gao, Dawei Gao, Wayne Xin Zhao, Yaliang
Li, Bolin Ding, Ji-Rong Wen
- Abstract要約: 本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
- 参考スコア(独自算出の注目度): 90.34226812493083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the superior performance, Large Language Models~(LLMs) require
significant computational resources for deployment and use. To overcome this
issue, quantization methods have been widely applied to reduce the memory
footprint of LLMs as well as increasing the inference rate. However, a major
challenge is that low-bit quantization methods often lead to performance
degradation. It is important to understand how quantization impacts the
capacity of LLMs. Different from previous studies focused on overall
performance, this work aims to investigate the impact of quantization on
\emph{emergent abilities}, which are important characteristics that distinguish
LLMs from small language models. Specially, we examine the abilities of
in-context learning, chain-of-thought reasoning, and instruction-following in
quantized LLMs. Our empirical experiments show that these emergent abilities
still exist in 4-bit quantization models, while 2-bit models encounter severe
performance degradation on the test of these abilities. To improve the
performance of low-bit models, we conduct two special experiments: (1)
fine-gained impact analysis that studies which components (or substructures)
are more sensitive to quantization, and (2) performance compensation through
model fine-tuning. Our work derives a series of important findings to
understand the impact of quantization on emergent abilities, and sheds lights
on the possibilities of extremely low-bit quantization for LLMs.
- Abstract(参考訳): 優れた性能にもかかわらず、Large Language Models~(LLM)は、デプロイと使用のためにかなりの計算資源を必要とする。
この問題を解決するために、LLMのメモリフットプリント削減や推論率の向上に量子化法が広く応用されている。
しかし、大きな課題は、低ビット量子化法がしばしば性能劣化を引き起こすことである。
量子化がLLMの容量に与える影響を理解することは重要である。
全体的な性能に着目した以前の研究と異なり、本研究は、小言語モデルとllmを区別する重要な特徴である \emph{emergent ability} に対する量子化の影響を調べることを目的としている。
特に,量子化llmにおける文脈内学習,連鎖的思考推論,命令追従の能力について検討する。
実験により,4ビット量子化モデルにおいて,これらの創発能力は依然として存在することが示された。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
我々の研究は、量子化が創発能力に与える影響を理解するための重要な発見を導き、LLMの極低ビット量子化の可能性に光を放つ。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Scaling laws for post-training quantized large language models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。
後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文 参考訳(メタデータ) (2024-10-15T23:34:22Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [17.43650511873449]
大規模言語モデル(LLM)は、優れた性能と堅牢な推論能力を示すが、その拡張サイズは、相当なリソース消費のために、デプロイメントを複雑にし、環境上の懸念を増す。
我々は量子化LDMの性能を高める革新的な手法を開発した。
我々の手法は、様々な量子化シナリオをまたいだ最先端の結果を一貫して提供し、量子化プロセスに関する深い理論的洞察を提供し、広く応用するための量子化モデルのポテンシャルを解明する。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - When Quantization Affects Confidence of Large Language Models? [4.338589334157708]
GPTQから4ビットへの変換は,言語モデルによって異なる影響で,真のラベルに対する信頼度を低下させることを示す。
本稿では,信頼度に基づく量子化損失の説明を行い,まず,完全モデルが信頼度が低いサンプルに対して,量子化が不均等に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-01T16:58:28Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。