論文の概要: Float8@2bits: Entropy Coding Enables Data-Free Model Compression
- arxiv url: http://arxiv.org/abs/2601.22787v1
- Date: Fri, 30 Jan 2026 10:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.375484
- Title: Float8@2bits: Entropy Coding Enables Data-Free Model Compression
- Title(参考訳): Float8@2bits: エントロピー符号化によりデータフリーモデル圧縮が可能に
- Authors: Patrick Putzky, Martin Genzel, Mattes Mollenhauer, Sebastian Schulze, Thomas Wollmann, Stefan Dietzel,
- Abstract要約: EntQuantは、トレーニング後のさまざまな圧縮方式の利点を統一する最初のフレームワークです。
本手法は,70Bパラメータモデルを30分以内で圧縮し,エントロピー符号化によりストレージコストから数値精度を分離する。
我々は、EntQuantが標準評価セットやモデルで最先端の結果を得るだけでなく、より複雑なベンチマークで機能性能を維持することを実証した。
- 参考スコア(独自算出の注目度): 4.775539058503235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training compression is currently divided into two contrasting regimes. On the one hand, fast, data-free, and model-agnostic methods (e.g., NF4 or HQQ) offer maximum accessibility but suffer from functional collapse at extreme bit-rates below 4 bits. On the other hand, techniques leveraging calibration data or extensive recovery training achieve superior fidelity but impose high computational constraints and face uncertain robustness under data distribution shifts. We introduce EntQuant, the first framework to unite the advantages of these distinct paradigms. By matching the performance of data-dependent methods with the speed and universality of data-free techniques, EntQuant enables practical utility in the extreme compression regime. Our method decouples numerical precision from storage cost via entropy coding, compressing a 70B parameter model in less than 30 minutes. We demonstrate that EntQuant does not only achieve state-of-the-art results on standard evaluation sets and models, but also retains functional performance on more complex benchmarks with instruction-tuned models, all at modest inference overhead.
- Abstract(参考訳): 現在、訓練後の圧縮は2つのコントラストのレギュレーションに分けられている。
一方、高速でデータフリーでモデルに依存しない手法(例えば、NF4やHQQ)は、最大アクセシビリティを提供するが、4ビット以下の極端なビットレートで機能崩壊する。
一方,キャリブレーションデータを活用する手法や広範囲なリカバリトレーニングは優れた忠実性を実現するが,高い計算制約を課し,データ分散シフトの下では不確実なロバスト性に直面する。
これらの異なるパラダイムの利点を統一する最初のフレームワークであるEntQuantを紹介します。
データに依存しない手法の性能とデータフリー手法の速度と普遍性とを一致させることで、EntQuantは極端な圧縮方式で実用性を実現する。
本手法は,70Bパラメータモデルを30分以内で圧縮し,エントロピー符号化によりストレージコストから数値精度を分離する。
我々は,EntQuantが標準評価セットやモデルに対して最先端の結果を得るだけでなく,命令調整されたモデルを用いたより複雑なベンチマークにおいて,すべて控えめな推論オーバーヘッドで機能性能を維持することを実証した。
関連論文リスト
- Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Generative Latent Diffusion for Efficient Spatiotemporal Data Reduction [11.494915987840876]
複数のデータセットにまたがる実験結果から,本手法はSZ3などの最先端圧縮機よりも最大10倍高い圧縮率を実現し,同じ再構成誤差下での先行学習手法よりも最大63%高い性能を示した。
論文 参考訳(メタデータ) (2025-07-02T20:27:38Z) - Forget the Data and Fine-Tuning! Just Fold the Network to Compress [13.611551223875194]
構造的に類似したニューロンを層にマージする新しいデータフリーモデル圧縮技術であるモデルフォールディングを導入する。
モデル折り畳みはデータ駆動圧縮技術に匹敵する性能を示し,最近提案したデータフリー手法よりも優れていた。
このアプローチは大規模モデルを圧縮するのに特に有効であり、資源制約された環境への展開に適している。
論文 参考訳(メタデータ) (2025-02-14T15:10:43Z) - Bit-bit encoding, optimizer-free training and sub-net initialization: techniques for scalable quantum machine learning [0.0]
入力と出力の両方をバイナリ文字列としてエンコードする量子分類器を提案する。
1つのパラメータが一度に更新されると、局所的な最小値への収束を保証する方法で量子モデルを訓練できることが示される。
論文 参考訳(メタデータ) (2025-01-04T00:35:14Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。