Fugu-MT 論文翻訳(概要): Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study

論文の概要: Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study

arxiv url: http://arxiv.org/abs/2307.08072v2
Date: Wed, 26 Jul 2023 04:15:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 15:15:31.955603
Title: Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study
Title（参考訳）: 量子化大規模言語モデルにおける創発的能力--実証的研究
Authors: Peiyu Liu, Zikang Liu, Ze-Feng Gao, Dawei Gao, Wayne Xin Zhao, Yaliang Li, Bolin Ding, Ji-Rong Wen
Abstract要約: 本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
参考スコア（独自算出の注目度）: 90.34226812493083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the superior performance, Large Language Models~(LLMs) require significant computational resources for deployment and use. To overcome this issue, quantization methods have been widely applied to reduce the memory footprint of LLMs as well as increasing the inference rate. However, a major challenge is that low-bit quantization methods often lead to performance degradation. It is important to understand how quantization impacts the capacity of LLMs. Different from previous studies focused on overall performance, this work aims to investigate the impact of quantization on \emph{emergent abilities}, which are important characteristics that distinguish LLMs from small language models. Specially, we examine the abilities of in-context learning, chain-of-thought reasoning, and instruction-following in quantized LLMs. Our empirical experiments show that these emergent abilities still exist in 4-bit quantization models, while 2-bit models encounter severe performance degradation on the test of these abilities. To improve the performance of low-bit models, we conduct two special experiments: (1) fine-gained impact analysis that studies which components (or substructures) are more sensitive to quantization, and (2) performance compensation through model fine-tuning. Our work derives a series of important findings to understand the impact of quantization on emergent abilities, and sheds lights on the possibilities of extremely low-bit quantization for LLMs.
Abstract（参考訳）: 優れた性能にもかかわらず、Large Language Models~(LLM)は、デプロイと使用のためにかなりの計算資源を必要とする。この問題を解決するために、LLMのメモリフットプリント削減や推論率の向上に量子化法が広く応用されている。しかし、大きな課題は、低ビット量子化法がしばしば性能劣化を引き起こすことである。量子化がLLMの容量に与える影響を理解することは重要である。全体的な性能に着目した以前の研究と異なり、本研究は、小言語モデルとllmを区別する重要な特徴である \emph{emergent ability} に対する量子化の影響を調べることを目的としている。特に,量子化llmにおける文脈内学習,連鎖的思考推論,命令追従の能力について検討する。実験により,4ビット量子化モデルにおいて,これらの創発能力は依然として存在することが示された。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。我々の研究は、量子化が創発能力に与える影響を理解するための重要な発見を導き、LLMの極低ビット量子化の可能性に光を放つ。

関連論文リスト

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Through a Compressed Lens: Investigating the Impact of Quantization on LLM Explainability and Interpretability [48.10089747299802]
量子化法は推論の高速化と大規模言語モデル(LLM)の展開の合理化に広く用いられている。異なるビット幅で3つの共通量子化技術を用いて実験を行い、2つの説明可能性手法、対実例と自然言語の説明、および2つの解釈可能性アプローチ、知識分析および潜時マルチホップ推論分析を行った。その結果, 量子化は構成によっては, モデル説明可能性や解釈可能性に大きな影響を及ぼすことがわかった。
論文参考訳（メタデータ） (2025-05-20T06:01:09Z)
Precision Where It Matters: A Novel Spike Aware Mixed-Precision Quantization Strategy for LLaMA-based Language Models [1.4999444543328293]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。本稿では,LLaMAアーキテクチャとその導関数に着目し,LLMの量子化について検討する。 LLaMAモデルに適した新しい混合精度量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-30T11:52:18Z)
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文参考訳（メタデータ） (2025-04-07T08:22:45Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
Scaling laws for post-training quantized large language models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文参考訳（メタデータ） (2024-10-15T23:34:22Z)
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文参考訳（メタデータ） (2024-08-07T12:42:09Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [17.43650511873449]
大規模言語モデル(LLM)は、優れた性能と堅牢な推論能力を示すが、その拡張サイズは、相当なリソース消費のために、デプロイメントを複雑にし、環境上の懸念を増す。我々は量子化LDMの性能を高める革新的な手法を開発した。我々の手法は、様々な量子化シナリオをまたいだ最先端の結果を一貫して提供し、量子化プロセスに関する深い理論的洞察を提供し、広く応用するための量子化モデルのポテンシャルを解明する。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
When Quantization Affects Confidence of Large Language Models? [4.338589334157708]
GPTQから4ビットへの変換は,言語モデルによって異なる影響で,真のラベルに対する信頼度を低下させることを示す。本稿では,信頼度に基づく量子化損失の説明を行い,まず,完全モデルが信頼度が低いサンプルに対して,量子化が不均等に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-05-01T16:58:28Z)
What Makes Quantization for Large Language Models Hard? An Empirical Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文参考訳（メタデータ） (2024-03-11T03:42:51Z)
A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-26T17:45:36Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文参考訳（メタデータ） (2023-08-17T02:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。