論文の概要: Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization
- arxiv url: http://arxiv.org/abs/2603.16105v1
- Date: Tue, 17 Mar 2026 04:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.096224
- Title: Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization
- Title(参考訳): 周波数問題:プルーニングと量子化のための高速モデル非依存データキュレーション
- Authors: Francesco Pio Monaco, Elia Cunegatti, Flavio Vella, Giovanni Iacca,
- Abstract要約: 大規模言語モデル(LLM)の可搬性向上には後学習モデル圧縮が不可欠である
texttttextbfZipCalは、Zipfianの電力法則に基づく語彙の多様性を最大化するモデルに依存しないデータキュレーション戦略である。
- 参考スコア(独自算出の注目度): 7.283573413303817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Post-training model compression is essential for enhancing the portability of Large Language Models (LLMs) while preserving their performance. While several compression approaches have been proposed, less emphasis has been placed on selecting the most suitable set of data (the so-called \emph{calibration data}) for finding the compressed model configuration. The choice of calibration data is a critical step in preserving model capabilities both intra- and inter-tasks. In this work, we address the challenge of identifying high-performance calibration sets for both pruning and quantization by analyzing intrinsic data properties rather than model-specific signals. We introduce \texttt{\textbf{ZipCal}}, a model-agnostic data curation strategy that maximizes lexical diversity based on Zipfian power laws. Experiments demonstrate that our method consistently outperforms standard uniform random sampling across various pruning benchmarks. Notably, it also performs on par, in terms of downstream performance, with a state-of-the-art method that relies on model perplexity. The latter becomes prohibitively expensive at large-scale models and datasets, while \texttt{\textbf{ZipCal}} is on average $\sim$240$\times$ faster due to its tractable linear complexity\footnote{We make the code and the experiments available at https://anonymous.4open.science/r/zipcal-71CD/.}.
- Abstract(参考訳): 訓練後のモデル圧縮は、その性能を維持しながら、LLM(Large Language Models)のポータビリティを向上させるために不可欠である。
いくつかの圧縮手法が提案されているが、圧縮されたモデル構成を見つけるのに最も適したデータ(いわゆる 'emph{calibration data})を選択することにはあまり重点を置いていない。
キャリブレーションデータの選択は、タスク内およびタスク間のモデル機能を維持するための重要なステップである。
本研究では, モデル固有信号ではなく, 固有データ特性を解析することにより, プルーニングと量子化の両面において, 高性能なキャリブレーション・セットを特定することの課題に対処する。
本稿では,Zipf の電力法則に基づく語彙の多様性を最大化するモデルに依存しないデータキュレーション戦略である \texttt{\textbf{ZipCal}} を紹介する。
実験により,本手法は各種プルーニングベンチマークにおける標準一様ランダムサンプリングよりも一貫した性能を示した。
特に、ダウンストリームのパフォーマンスという点では、モデルパープレキシティに依存する最先端のメソッドで、同等に動作します。
後者は大規模モデルやデータセットでは不当に高価になるが、 \texttt{\textbf{ZipCal}} は平均$\sim$240$\times$高速である。
と。
関連論文リスト
- Float8@2bits: Entropy Coding Enables Data-Free Model Compression [4.775539058503235]
EntQuantは、トレーニング後のさまざまな圧縮方式の利点を統一する最初のフレームワークです。
本手法は,70Bパラメータモデルを30分以内で圧縮し,エントロピー符号化によりストレージコストから数値精度を分離する。
我々は、EntQuantが標準評価セットやモデルで最先端の結果を得るだけでなく、より複雑なベンチマークで機能性能を維持することを実証した。
論文 参考訳(メタデータ) (2026-01-30T10:08:15Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Self-calibration for Language Model Quantization and Pruning [38.00221764773372]
量子化法とプルーニング法は、ラベルなしサンプルの小さなセットであるキャリブレーションデータを必要とする。
本稿では,自己校正を解法として提案する。
われわれの手法は外部データを必要としないが、代わりにモデル自体を利用して合成キャリブレーションデータを生成する。
論文 参考訳(メタデータ) (2024-10-22T16:50:00Z) - Low-Resource Crop Classification from Multi-Spectral Time Series Using Lossless Compressors [6.379065975644869]
深層学習は多スペクトル時間データを用いた作物分類の精度を大幅に向上させた。
ラベル付きサンプルが少ない低リソース環境では、深層学習モデルは不十分なデータのために性能が悪い。
本稿では,これらの状況に対処するために,ディープラーニングモデルに代わる非学習的代替案を提案する。
論文 参考訳(メタデータ) (2024-05-28T12:28:12Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。