論文の概要: Hyper-Compression: Model Compression via Hyperfunction
- arxiv url: http://arxiv.org/abs/2409.00592v3
- Date: Wed, 02 Apr 2025 13:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:16:50.989341
- Title: Hyper-Compression: Model Compression via Hyperfunction
- Title(参考訳): ハイパー圧縮:ハイパーファンクションによるモデル圧縮
- Authors: Fenglei Fan, Juntong Fan, Dayang Wang, Jingbo Zhang, Zelin Dong, Shijun Zhang, Ge Wang, Tieyong Zeng,
- Abstract要約: 本稿では,モデル圧縮をハイパーファンクションによるパラメータ表現問題に変換する,いわゆるハイパー圧縮を提案する。
これは、既存のプルーニング、量子化、蒸留、分解とは大きく異なるモデル圧縮のための新しいメカニズムを示唆している。
textbfPreferable compression ratio; 2) textbfNo post-hoc retraining; 3) textbfAffordable inference time; and 4) textbfShort compression time。
- 参考スコア(独自算出の注目度): 20.47369296713829
- License:
- Abstract: The rapid growth of large models' size has far outpaced that of computing resources. To bridge this gap, encouraged by the parsimonious relationship between genotype and phenotype in the brain's growth and development, we propose the so-called hyper-compression that turns the model compression into the issue of parameter representation via a hyperfunction. Specifically, it is known that the trajectory of some low-dimensional dynamic systems can fill the high-dimensional space eventually. Thus, hyper-compression, using these dynamic systems as the hyperfunctions, represents the parameters of the target network by their corresponding composition number or trajectory length. This suggests a novel mechanism for model compression, substantially different from the existing pruning, quantization, distillation, and decomposition. Along this direction, we methodologically identify a suitable dynamic system with the irrational winding as the hyperfunction and theoretically derive its associated error bound. Next, guided by our theoretical insights, we propose several engineering twists to make the hyper-compression pragmatic and effective. Lastly, systematic and comprehensive experiments confirm that hyper-compression enjoys the following \textbf{PNAS} merits: 1) \textbf{P}referable compression ratio; 2) \textbf{N}o post-hoc retraining; 3) \textbf{A}ffordable inference time; and 4) \textbf{S}hort compression time. It compresses LLaMA2-7B in an hour and achieves close-to-int4-quantization performance, without retraining and with a performance drop of less than 1\%. We have open-sourced our code in https://github.com/Juntongkuki/Hyper-Compression.git for free download and evaluation.
- Abstract(参考訳): 大規模モデルの急速な成長は、コンピューティングリソースよりもはるかに大きくなっている。
このギャップを埋めるために、脳の成長と発達における遺伝子型と表現型との相似関係により、モデル圧縮をハイパーファンクションを介してパラメータ表現の問題に変換する、いわゆるハイパー圧縮を提案する。
具体的には、いくつかの低次元力学系の軌道が最終的に高次元空間を埋めることが知られている。
したがって、これらの力学系をハイパーファンクションとして用いた超圧縮は、対象ネットワークのパラメータを対応する合成数または軌道長で表現する。
これは、既存のプルーニング、量子化、蒸留、分解とは大きく異なるモデル圧縮のための新しいメカニズムを示唆している。
この方向に沿って、不合理な巻線を超函数として適切な力学系を方法論的に同定し、理論的にその関連する誤差境界を導出する。
次に、我々の理論的知見に導かれ、超圧縮を実用的で効果的にするために、いくつかの工学的なツイストを提案する。
最後に、系統的かつ包括的な実験は、超圧縮が以下の「textbf{PNAS}」のメリットを享受していることを確認する。
1) \textbf{P}参照圧縮率
2) \textbf{N}o post-hoc retraining
3) \textbf{A}ffordable inference time, and
4) <textbf{S}hort 圧縮時間。
1時間でLLaMA2-7Bを圧縮し、再トレーニングや性能低下を1\%以下にすることなく、int4量子化性能を達成する。
私たちは、無償ダウンロードと評価のために、https://github.com/Juntongkuki/Hyper-Compression.gitでコードをオープンソース化しました。
関連論文リスト
- Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - Lossy and Lossless (L$^2$) Post-training Model Size Compression [12.926354646945397]
本稿では,無損失圧縮と無損失圧縮を統一的に組み合わせた後学習モデルサイズ圧縮法を提案する。
精度を犠牲にすることなく安定な10times$圧縮比を達成でき、短時間で20times$圧縮比を小さくすることができる。
論文 参考訳(メタデータ) (2023-08-08T14:10:16Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Reliable Model Compression via Label-Preservation-Aware Loss Functions [14.368823297066276]
本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。
圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
論文 参考訳(メタデータ) (2020-12-03T00:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。