論文の概要: QLESS: A Quantized Approach for Data Valuation and Selection in Large Language Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2502.01703v1
- Date: Mon, 03 Feb 2025 10:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:44.520103
- Title: QLESS: A Quantized Approach for Data Valuation and Selection in Large Language Model Fine-Tuning
- Title(参考訳): QLESS: 大規模言語モデルファインチューニングにおけるデータバリュエーションと選択のための量子アプローチ
- Authors: Moses Ananta, Muhammad Farid Adilazuarda, Zayd Muhammad Kawakibi Zuhri, Ayu Purwarianti, Alham Fikri Aji,
- Abstract要約: textbfQLESS (Quantized Low-rank Gradient similarity Search)を提案する。
QLESSは、勾配量子化とLESSフレームワークを統合して、メモリ効率のよいデータバリュエーションと選択を可能にする。
実験では、QLESSがLESSに匹敵するデータ選択性能を達成し、メモリ使用量を最大16倍に削減している。
- 参考スコア(独自算出の注目度): 12.371302966300128
- License:
- Abstract: Fine-tuning large language models (LLMs) is often constrained by the computational costs of processing massive datasets. We propose \textbf{QLESS} (Quantized Low-rank Gradient Similarity Search), which integrates gradient quantization with the LESS framework to enable memory-efficient data valuation and selection. QLESS employs a two-step compression process: first, it obtains low-dimensional gradient representations through LoRA-based random projection; then, it quantizes these gradients to low-bitwidth representations. Experiments on multiple LLM architectures (LLaMA, Mistral, Qwen) and benchmarks (MMLU, BBH, TyDiQA) show that QLESS achieves comparable data selection performance to LESS while reducing memory usage by up to 16x. Even 1-bit gradient quantization preserves data valuation quality. These findings underscore QLESS as a practical, scalable approach to identifying informative examples within strict memory constraints.
- Abstract(参考訳): 細調整された大規模言語モデル(LLM)は、大規模なデータセットを処理する際の計算コストによって制約されることが多い。
本稿では,LESSフレームワークと勾配量子化を統合し,メモリ効率のよいデータバリュエーションと選択を可能にする「textbf{QLESS} (Quantized Low-rank Gradient similarity Search)」を提案する。
QLESSは2段階の圧縮プロセスを採用している: まず、LoRAベースのランダムプロジェクションを通して低次元勾配表現を取得し、次に、これらの勾配を低ビット幅表現に量子化する。
複数のLLMアーキテクチャ(LLaMA、Mistral、Qwen)とベンチマーク(MMLU、BBH、TyDiQA)の実験は、QLESSがLESSに匹敵するデータ選択性能を達成し、メモリ使用量を最大16倍に削減していることを示している。
1ビットの勾配量子化でさえ、データのバリュエーション品質を保っている。
これらの発見はQLESSを、厳密なメモリ制約の中で情報的サンプルを特定するための実用的でスケーラブルなアプローチとして評価している。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [63.89099994367657]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットにすることで、リソース制約のあるデバイス上で動作することが可能になり、しばしばパフォーマンスの低下につながる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Learning Large Scale Sparse Models [6.428186644949941]
サンプルの数や特徴次元が数百万から数十億にも達する大規模環境でスパースモデルを学習することを検討する。
ラッソのようなスパースモデルをオンライン的に学習し、ランダムに選択されたサンプルが1つだけ露呈してスパース勾配を更新することを提案する。
これにより、メモリコストはサンプルサイズに依存しず、1つのサンプルの勾配評価が効率的となる。
論文 参考訳(メタデータ) (2023-01-26T06:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。