論文の概要: Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis
- arxiv url: http://arxiv.org/abs/2505.14742v1
- Date: Tue, 20 May 2025 07:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.668111
- Title: Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis
- Title(参考訳): クアフ: 量子化パラメータ効率の良い微調整を外周空間安定仮説の下で行う
- Authors: Hong Huang, Dapeng Wu,
- Abstract要約: Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。
軽量な操作を使用して、排他的な不変チャネルを抑える。
1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
- 参考スコア(独自算出の注目度): 9.884521812433661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have made exciting achievements across various domains, yet their deployment on resource-constrained personal devices remains hindered by the prohibitive computational and memory demands of task-specific fine-tuning. While quantization offers a pathway to efficiency, existing methods struggle to balance performance and overhead, either incurring high computational/memory costs or failing to address activation outliers, a critical bottleneck in quantized fine-tuning. To address these challenges, we propose the Outlier Spatial Stability Hypothesis (OSSH): During fine-tuning, certain activation outlier channels retain stable spatial positions across training iterations. Building on OSSH, we propose Quaff, a Quantized parameter-efficient fine-tuning framework for LLMs, optimizing low-precision activation representations through targeted momentum scaling. Quaff dynamically suppresses outliers exclusively in invariant channels using lightweight operations, eliminating full-precision weight storage and global rescaling while reducing quantization errors. Extensive experiments across ten benchmarks validate OSSH and demonstrate Quaff's efficacy. Specifically, on the GPQA reasoning benchmark, Quaff achieves a 1.73x latency reduction and 30% memory savings over full-precision fine-tuning while improving accuracy by 0.6% on the Phi-3 model, reconciling the triple trade-off between efficiency, performance, and deployability. By enabling consumer-grade GPU fine-tuning (e.g., RTX 2080 Super) without sacrificing model utility, Quaff democratizes personalized LLM deployment. The code is available at https://github.com/Little0o0/Quaff.git.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域でエキサイティングな成果を上げてきたが、リソースに制約のあるパーソナルデバイスへの展開は、タスク固有の微調整の禁止された計算とメモリ要求によって妨げられている。
量子化は効率性への道筋を提供するが、既存の手法は高い計算/メモリコストを発生させるか、アクティベーションのアウトレイアに対処できないか、パフォーマンスとオーバーヘッドのバランスをとるのに苦労している。
これらの課題に対処するため,我々は,エクササイズ安定仮説 (OSSH: Outlier Spatial stability hypothesis) を提案する。
OSSH上に構築したQuaffは,目標運動量スケーリングによる低精度活性化表現を最適化する,LLMのための量子化パラメータ効率の微調整フレームワークである。
Quaffは、軽量な演算を使用して、不変チャネルに排他的に排他性を動的に抑制し、完全精度の重み付けとグローバル再スケーリングを排除し、量子化エラーを低減させる。
10ベンチマークにわたる大規模な実験では、OSSHが検証され、Quawfの有効性が実証された。
具体的には、GPQA推論ベンチマークにおいて、Quaffは1.73倍のレイテンシ削減と、完全精度の微調整で30%のメモリ節約を実現し、Phi-3モデルの精度を0.6%向上させ、効率、性能、デプロイ性の3倍のトレードオフを調整した。
モデルユーティリティを犠牲にすることなく、コンシューマグレードのGPU微調整(例えば、RTX 2080 Super)を可能にすることで、QuaffはパーソナライズされたLLMデプロイメントを民主化する。
コードはhttps://github.com/Little0o0/Quaff.gitで公開されている。
関連論文リスト
- FBQuant: FeedBack Quantization for Large Language Models [13.545647487024864]
自動制御における負のフィードバック機構にインスパイアされた新しいアプローチであるFeedBack Quantization (FBQuant)を提案する。
FBQuantは本質的に、再構成された重量が量子化によって束縛されることを保証し、過剰適合のリスクを低減する。
3ビットのLlama2-7Bでは、FBQuantはゼロショット精度を1.2%向上させる。
論文 参考訳(メタデータ) (2025-01-25T06:04:07Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAは、整数型低ランクパラメータを持つ量子化拡散モデルを適用し、チューニング中に推論効率を含める。
推論中、IntLoRA重みはPTQなしで直接量子化された下流重みを得るために、シームレスに事前訓練された重みにマージすることができる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。