Fugu-MT 論文翻訳(概要): AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuning

論文の概要: AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuning

arxiv url: http://arxiv.org/abs/2411.13814v1
Date: Thu, 21 Nov 2024 03:35:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.700046
Title: AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuning
Title（参考訳）: AutoMixQ: 高性能メモリ効率のファインチューニングのための自己調整量子化
Authors: Changhai Zhou, Shiyang Zhang, Yuhua Zhou, Zekai Liu, Shichao Weng,
Abstract要約: リソース制約下での微調整大型言語モデル(LLM)は、ディープラーニングにおいて重要な課題である。 LoRA、プルーニング、量子化はすべて、資源効率を改善する効果的な方法である。本稿では,各層に対して最適な量子化構成を選択するエンドツーエンド最適化フレームワークであるAutoMixQを提案する。
参考スコア（独自算出の注目度）: 0.2621434923709917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning large language models (LLMs) under resource constraints is a significant challenge in deep learning. Low-Rank Adaptation (LoRA), pruning, and quantization are all effective methods for improving resource efficiency. However, combining them directly often results in suboptimal performance, especially with uniform quantization across all model layers. This is due to the complex, uneven interlayer relationships introduced by pruning, necessitating more refined quantization strategies. To address this, we propose AutoMixQ, an end-to-end optimization framework that selects optimal quantization configurations for each LLM layer. AutoMixQ leverages lightweight performance models to guide the selection process, significantly reducing time and computational resources compared to exhaustive search methods. By incorporating Pareto optimality, AutoMixQ balances memory usage and performance, approaching the upper bounds of model capability under strict resource constraints. Our experiments on widely used benchmarks show that AutoMixQ reduces memory consumption while achieving superior performance. For example, at a 30\% pruning rate in LLaMA-7B, AutoMixQ achieved 66.21\% on BoolQ compared to 62.45\% for LoRA and 58.96\% for LoftQ, while reducing memory consumption by 35.5\% compared to LoRA and 27.5\% compared to LoftQ.
Abstract（参考訳）: リソース制約下での微調整大型言語モデル(LLM)は、ディープラーニングにおいて重要な課題である。ローランド適応(LoRA)、プルーニング(pruning)、量子化(quantization)は、資源効率を改善する効果的な方法である。しかしながら、直接組み合わせることによって、特にすべてのモデル層をまたいだ均一な量子化によって、最適以下のパフォーマンスが得られることがしばしばある。これは、より洗練された量子化戦略を必要とするプルーニングによって導入された複雑で不均一な層間関係のためである。そこで本研究では,各LCM層に対して最適な量子化構成を選択するエンドツーエンド最適化フレームワークであるAutoMixQを提案する。 AutoMixQは軽量なパフォーマンスモデルを活用して選択プロセスをガイドし、徹底的な検索方法に比べて時間と計算資源を著しく削減する。 Paretoの最適性を取り入れることで、AutoMixQはメモリ使用量とパフォーマンスのバランスを保ち、厳格なリソース制約の下でモデル能力の上限に近づく。広く利用されているベンチマーク実験から,AutoMixQはメモリ消費を低減し,優れた性能を実現していることがわかった。例えば、LLaMA-7Bの30 %プルーニングレートでは、AutoMixQはBoolQで66.21 %、LoRAで62.45 %、LoftQで58.96 %、LoRAで35.5 %、LoftQで27.5 %であった。

関連論文リスト

Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth [10.872650037112255]
QLoRAは、低ビット量子化とLoRAを効果的に組み合わせて、大規模言語モデル(LLM)のためのメモリフレンドリーな微調整を実現する。部分キャリブレーションデータを用いて、各層に対する量子化成分と低ランク空間のランクを共同で探索する、統一的かつ勾配のない戦略である textbfQR-Adaptor を提案する。提案手法はGSM8Kに対して4.89%の精度向上を実現し、4ビット設定のメモリフットプリントを維持しつつ、16ビットの微調整モデルよりも優れるケースもある。
論文参考訳（メタデータ） (2025-05-02T08:46:01Z)
FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T18:46:37Z)
Gradient Weight-normalized Low-rank Projection for Efficient LLM Training [16.00576040281808]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示してきたが、計算資源に対する需要の増大は大きな課題となっている。これを解決するために、パラメータ効率のよい微細チューニング法(PEFT)が開発されているが、完全な微細チューニングに比べて性能が劣ることが多い。我々はGradNormLoRPを導入し、パラメータとメモリ効率を両立させながら、完全な微調整に匹敵する性能を維持した。
論文参考訳（メタデータ） (2024-12-27T12:23:39Z)
SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。 LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。 MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T05:57:55Z)
Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。 LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文参考訳（メタデータ） (2024-06-10T15:44:22Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts [3.6301530893494127]
MixLoRAは、リソース効率の良いスパースMoEモデルを構築するためのアプローチである。評価の結果,MixLoRAはマルチタスク学習シナリオにおける最先端PEFT法と比較して約9%精度が向上していることがわかった。
論文参考訳（メタデータ） (2024-04-22T02:15:52Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文参考訳（メタデータ） (2023-10-11T02:47:40Z)
Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文参考訳（メタデータ） (2023-06-16T11:37:15Z)
MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering [66.05768870785548]
微調整事前学習型視覚言語モデル(VLM)は、視覚質問応答(VQA)における最先端性能を達成するための一般的なパラダイムである。現在のパラメータ効率のチューニング手法は、チューニング可能なパラメータの数を劇的に削減するが、完全な微調整を伴う大きなパフォーマンスギャップは依然として残っている。低リソースVQAにおける完全微調整よりも優れた冗長性を考慮したパラメータ効率調整法であるMixPHMを提案する。
論文参考訳（メタデータ） (2023-03-02T13:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。