Fugu-MT 論文翻訳(概要): ApiQ: Finetuning of 2-Bit Quantized Large Language Model

論文の概要: ApiQ: Finetuning of 2-Bit Quantized Large Language Model

arxiv url: http://arxiv.org/abs/2402.05147v2
Date: Mon, 12 Feb 2024 15:09:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 20:07:48.995407
Title: ApiQ: Finetuning of 2-Bit Quantized Large Language Model
Title（参考訳）: ApiQ: 2ビット量子化大言語モデルの微調整
Authors: Baohao Liao, Christof Monz
Abstract要約: ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。量子化の様々なビット幅にわたって優れた微調整結果が得られる。
参考スコア（独自算出の注目度）: 7.621880623381026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Memory-efficient finetuning of large language models (LLMs) has recently attracted huge attention with the increasing size of LLMs, primarily due to the constraints posed by GPU memory limitations and the comparable results of these methods with full finetuning. Despite the advancements, current strategies for memory-efficient finetuning, such as QLoRA, exhibit inconsistent performance across diverse bit-width quantizations and multifaceted tasks. This inconsistency largely stems from the detrimental impact of the quantization process on preserved knowledge, leading to catastrophic forgetting and undermining the utilization of pretrained models for finetuning purposes. In this work, we introduce a novel quantization framework named ApiQ, designed to restore the lost information from quantization by concurrently initializing LoRA components and quantizing the weights of LLMs. This approach ensures the maintenance of the original LLM's activation precision while mitigating the error propagation from shallower into deeper layers. Through comprehensive evaluations conducted on a spectrum of language tasks with various models, ApiQ demonstrably minimizes activation error during quantization. Consequently, it consistently achieves superior finetuning outcomes across various bit-widths of quantization.
Abstract（参考訳）: 大規模言語モデル(LLM)のメモリ効率の高い微調整は、GPUメモリの制限による制約と、これらの手法の完全な微調整による結果が原因で、LLMのサイズが増大するにつれ、近年大きな注目を集めている。進歩にもかかわらず、QLoRAのようなメモリ効率の高い微調整のための現在の戦略は、様々なビット幅量子化や多面的タスクにまたがる不整合性能を示す。この矛盾は、量子化過程が保存された知識に対する有害な影響に大きく起因し、破滅的な忘れ去られ、微調整のために事前訓練されたモデルの利用を損なう結果となった。本研究では,LoRA成分を並列に初期化し,LLMの重みを定量化することにより,損失情報を量子化から復元する新しい量子化フレームワークApiQを提案する。このアプローチは、より浅い層からより深い層へのエラー伝播を緩和しながら、元のLCMのアクティベーション精度の維持を保証する。様々なモデルを用いた言語タスクの包括的評価により、ApiQは量子化時のアクティベーションエラーを実証的に最小化する。その結果、量子化の様々なビット幅にわたって優れた微調整結果が得られる。

関連論文リスト

RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization [2.975939846457057]
低ランク適応 (LoRA) を用いた細調整型大規模言語モデル (LLM) は, 下流タスクにおいて極めて効率的なアプローチとなっている。量子化LLMにLoRA技術を適用すると、量子化重みの表現精度が低下するため、ユニークな課題が生じる。 CLoQは、これらの課題を克服するために設計された、単純化された初期化戦略である。
論文参考訳（メタデータ） (2025-01-30T16:48:15Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。 ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文参考訳（メタデータ） (2024-11-12T12:52:04Z)
Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文参考訳（メタデータ） (2024-10-16T21:34:41Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
What Makes Quantization for Large Language Models Hard? An Empirical Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文参考訳（メタデータ） (2024-03-11T03:42:51Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文参考訳（メタデータ） (2023-07-16T15:11:01Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。