論文の概要: Can Post-Training Quantization Benefit from an Additional QLoRA Integration?
- arxiv url: http://arxiv.org/abs/2502.10202v1
- Date: Fri, 14 Feb 2025 14:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:52.185023
- Title: Can Post-Training Quantization Benefit from an Additional QLoRA Integration?
- Title(参考訳): 追加のQLoRA統合によるトレーニング後の量子化ベネフィットは可能か?
- Authors: Xiliang Zhu, Elena Khasanova, Cheng Chen,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理を変革しているが、現実のデプロイメントには大きな課題がある。
本研究では,これらの問題に対処するために,4ビットポストトレーニング量子化(PTQ)とQLoRAの統合について検討する。
- 参考スコア(独自算出の注目度): 2.711943011160125
- License:
- Abstract: Large language models (LLMs) have transformed natural language processing but pose significant challenges for real-world deployment. These models necessitate considerable computing resources, which can be costly and frequently unavailable. Model compression techniques such as quantization are often leveraged to alleviate resource demand, but they may have a negative impact on the generation quality. In this study, we explore the integration of 4-bit Post-training Quantization (PTQ) with QLoRA to address these issues. We demonstrate through extensive experiments that this integration outperforms standard PTQ, and in some cases even 16-bit full-parameter fine-tuning on LLMs, validated across proprietary and public datasets with different quantization algorithms. The results demonstrate the efficacy of PTQ-QLoRA integration, offering a viable solution for deploying powerful LLMs in resource-constrained environments without compromising on performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理を変革しているが、現実のデプロイメントには大きな課題がある。
これらのモデルは、かなりの計算資源を必要とするが、費用がかかり、頻繁に利用できない。
量子化のようなモデル圧縮技術は、しばしば資源需要を軽減するために利用されるが、それらが生成品質に悪影響を及ぼす可能性がある。
本研究では,これらの問題に対処するために,4ビットポストトレーニング量子化(PTQ)とQLoRAの統合について検討する。
我々は、この統合が標準のPTQより優れており、いくつかのケースでは、異なる量子化アルゴリズムを持つプロプライエタリおよびパブリックデータセット間で検証されたLLMの16ビットのフルパラメータの微調整でも性能が向上することを示した。
その結果、PTQ-QLoRA統合の有効性が示され、パフォーマンスを損なうことなく、リソース制約のある環境で強力なLLMをデプロイするための実行可能なソリューションが提供される。
関連論文リスト
- Efficient Domain Adaptation of Multimodal Embeddings using Constrastive Learning [0.08192907805418582]
現在のアプローチでは、タスク固有の適応なしに事前訓練されたモデルを使用する際にサブパー結果を得るか、あるいは微調整のためにかなりの計算資源を必要とする。
本稿では,高コストな微調整処理を必要とせず,基礎的なマルチモーダルな埋め込みを下流タスクに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T06:30:12Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models [8.99127212785609]
この研究は、音声拡散モデル(ADM)を定量化する新しいフレームワークであるPTQ4ADMを導入している。
本研究の主な貢献は,(1)カバレッジ駆動型プロンプト拡張法,(2)テキスト条件ADMのアクティベーション対応校正セット生成アルゴリズムである。
PTQ4ADMは、完全精度モデルに匹敵する合成品質の指標を達成しつつ、モデルサイズを最大70%削減する能力を示した。
論文 参考訳(メタデータ) (2024-09-20T20:52:56Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - Post Training Quantization of Large Language Models with Microscaling Formats [4.736634198230005]
SmoothQuant, AWQ, GPTQの3つの有名なポストトレーニング手法の併用について検討した。
異なるPTQ手法を組み合わせることで、4ビットの重みと8ビットのアクティベーションにモデルを量子化できることを示す。
論文 参考訳(メタデータ) (2024-05-12T02:15:26Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。