Fugu-MT 論文翻訳(概要): RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models

論文の概要: RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models

arxiv url: http://arxiv.org/abs/2502.09003v1
Date: Thu, 13 Feb 2025 06:44:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.124929
Title: RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models
Title（参考訳）: RoSTE:大規模言語モデルのための効率的な量子化対応細調整手法
Authors: Quan Wei, Chung-Yiu Yau, Hoi-To Wai, Yang, Zhao, Dongyeop Kang, Youngsuk Park, Mingyi Hong,
Abstract要約: 本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
参考スコア（独自算出の注目度）: 95.32315448601241
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Supervised fine-tuning is a standard method for adapting pre-trained large language models (LLMs) to downstream tasks. Quantization has been recently studied as a post-training technique for efficient LLM deployment. To obtain quantized fine-tuned LLMs, conventional pipelines would first fine-tune the pre-trained models, followed by post-training quantization. This often yields suboptimal performance as it fails to leverage the synergy between fine-tuning and quantization. To effectively realize low-bit quantization of weights, activations, and KV caches in LLMs, we propose an algorithm named Rotated Straight-Through-Estimator (RoSTE), which combines quantization-aware supervised fine-tuning (QA-SFT) with an adaptive rotation strategy that identifies an effective rotation configuration to reduce activation outliers. We provide theoretical insights on RoSTE by analyzing its prediction error when applied to an overparameterized least square quantized training problem. Our findings reveal that the prediction error is directly proportional to the quantization error of the converged weights, which can be effectively managed through an optimized rotation configuration. Experiments on Pythia and Llama models of different sizes demonstrate the effectiveness of RoSTE. Compared to existing post-SFT quantization baselines, our method consistently achieves superior performances across various tasks and different LLM architectures.
Abstract（参考訳）: Supervised Fine-tuningは、トレーニング済みの大規模言語モデル(LLM)を下流タスクに適応させる標準的な方法である。量子化はLLMの効率的な展開のためのポストトレーニング手法として最近研究されている。量子化された微調整LPMを得るために、従来のパイプラインはまず事前訓練されたモデルに微調整を行い、続いて後訓練された量子化を行う。これは、微調整と量子化の相乗効果を生かさないため、しばしば準最適性能をもたらす。 LLMにおける重み、アクティベーション、KVキャッシュの低ビット量子化を効果的に実現するために、量子化対応微調整(QA-SFT)と、有効回転構成を識別してアクティベーションアウトリアを低減する適応回転戦略を組み合わせたRotated Straight-Through-Estimator (RoSTE) というアルゴリズムを提案する。過パラメータ化最小2乗量子化学習問題に適用した場合の予測誤差を解析し,RoSTEに関する理論的知見を提供する。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。異なる大きさのPythiaモデルとLlamaモデルの実験は、RoSTEの有効性を実証している。既存のSFT後の量子化ベースラインと比較して,本手法は様々なタスクや異なるLLMアーキテクチャにおいて,優れた性能を実現している。

関連論文リスト

The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Taming Sensitive Weights : Noise Perturbation Fine-tuning for Robust LLM Quantization [5.718172547021947]
量子化誤差に対する感度重みの影響を抑えるため,NPFT(Noth Perturbation Fine-tuning)を提案する。 NPFTは、外周重量を同定し、外周重量のランダムな摂動を、PEFT最適化によるモデルとして追加する。 OPTおよびLLaMAモデルに適用すると、NPFT法は均一および非一様量子化器の安定な性能向上を実現する。
論文参考訳（メタデータ） (2024-12-08T21:46:22Z)
ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。 ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文参考訳（メタデータ） (2024-11-12T12:52:04Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。様々なビット幅にわたって優れた微調整結果が得られる。
論文参考訳（メタデータ） (2024-02-07T09:36:54Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)
Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文参考訳（メタデータ） (2020-02-18T12:31:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。