論文の概要: Float8@2bits: Entropy Coding Enables Data-Free Model Compression
- arxiv url: http://arxiv.org/abs/2601.22787v1
- Date: Fri, 30 Jan 2026 10:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.375484
- Title: Float8@2bits: Entropy Coding Enables Data-Free Model Compression
- Title(参考訳): Float8@2bits: エントロピー符号化によりデータフリーモデル圧縮が可能に
- Authors: Patrick Putzky, Martin Genzel, Mattes Mollenhauer, Sebastian Schulze, Thomas Wollmann, Stefan Dietzel,
- Abstract要約: EntQuantは、トレーニング後のさまざまな圧縮方式の利点を統一する最初のフレームワークです。
本手法は,70Bパラメータモデルを30分以内で圧縮し,エントロピー符号化によりストレージコストから数値精度を分離する。
我々は、EntQuantが標準評価セットやモデルで最先端の結果を得るだけでなく、より複雑なベンチマークで機能性能を維持することを実証した。
- 参考スコア(独自算出の注目度): 4.775539058503235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training compression is currently divided into two contrasting regimes. On the one hand, fast, data-free, and model-agnostic methods (e.g., NF4 or HQQ) offer maximum accessibility but suffer from functional collapse at extreme bit-rates below 4 bits. On the other hand, techniques leveraging calibration data or extensive recovery training achieve superior fidelity but impose high computational constraints and face uncertain robustness under data distribution shifts. We introduce EntQuant, the first framework to unite the advantages of these distinct paradigms. By matching the performance of data-dependent methods with the speed and universality of data-free techniques, EntQuant enables practical utility in the extreme compression regime. Our method decouples numerical precision from storage cost via entropy coding, compressing a 70B parameter model in less than 30 minutes. We demonstrate that EntQuant does not only achieve state-of-the-art results on standard evaluation sets and models, but also retains functional performance on more complex benchmarks with instruction-tuned models, all at modest inference overhead.
- Abstract(参考訳): 現在、訓練後の圧縮は2つのコントラストのレギュレーションに分けられている。
一方、高速でデータフリーでモデルに依存しない手法(例えば、NF4やHQQ)は、最大アクセシビリティを提供するが、4ビット以下の極端なビットレートで機能崩壊する。
一方,キャリブレーションデータを活用する手法や広範囲なリカバリトレーニングは優れた忠実性を実現するが,高い計算制約を課し,データ分散シフトの下では不確実なロバスト性に直面する。
これらの異なるパラダイムの利点を統一する最初のフレームワークであるEntQuantを紹介します。
データに依存しない手法の性能とデータフリー手法の速度と普遍性とを一致させることで、EntQuantは極端な圧縮方式で実用性を実現する。
本手法は,70Bパラメータモデルを30分以内で圧縮し,エントロピー符号化によりストレージコストから数値精度を分離する。
我々は,EntQuantが標準評価セットやモデルに対して最先端の結果を得るだけでなく,命令調整されたモデルを用いたより複雑なベンチマークにおいて,すべて控えめな推論オーバーヘッドで機能性能を維持することを実証した。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Efficient Feature Compression for Machines with Global Statistics Preservation [5.113857098394778]
本稿では,Zスコア正規化を用いてデコーダ側の圧縮特徴データを効率よく復元する。
本手法は,現在開発中の標準規格で使用されている既存のスケーリング手法に取って代わるものである。
実験の結果,提案手法を用いることで,各タスクの平均17.09%,物体追跡の65.69%を削減できることがわかった。
論文 参考訳(メタデータ) (2025-12-10T01:51:34Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Generative Latent Diffusion for Efficient Spatiotemporal Data Reduction [11.494915987840876]
複数のデータセットにまたがる実験結果から,本手法はSZ3などの最先端圧縮機よりも最大10倍高い圧縮率を実現し,同じ再構成誤差下での先行学習手法よりも最大63%高い性能を示した。
論文 参考訳(メタデータ) (2025-07-02T20:27:38Z) - Forget the Data and Fine-Tuning! Just Fold the Network to Compress [13.611551223875194]
構造的に類似したニューロンを層にマージする新しいデータフリーモデル圧縮技術であるモデルフォールディングを導入する。
モデル折り畳みはデータ駆動圧縮技術に匹敵する性能を示し,最近提案したデータフリー手法よりも優れていた。
このアプローチは大規模モデルを圧縮するのに特に有効であり、資源制約された環境への展開に適している。
論文 参考訳(メタデータ) (2025-02-14T15:10:43Z) - Bit-bit encoding, optimizer-free training and sub-net initialization: techniques for scalable quantum machine learning [0.0]
入力と出力の両方をバイナリ文字列としてエンコードする量子分類器を提案する。
1つのパラメータが一度に更新されると、局所的な最小値への収束を保証する方法で量子モデルを訓練できることが示される。
論文 参考訳(メタデータ) (2025-01-04T00:35:14Z) - Ares: Approximate Representations via Efficient Sparsification -- A Stateless Approach through Polynomial Homomorphism [1.3824176915623292]
我々は,制約表現を利用して,コンパクトで解釈可能なスケーラブルなデータ圧縮を実現するステートレス圧縮フレームワークを導入する。
提案手法は, 簡易性とスケーラビリティを保ちながら, 再構成精度を損なうことなく高い圧縮比を実現する。
論文 参考訳(メタデータ) (2024-12-14T00:05:43Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。