論文の概要: Hyper-Compression: Model Compression via Hyperfunction
- arxiv url: http://arxiv.org/abs/2409.00592v3
- Date: Wed, 02 Apr 2025 13:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:07.333445
- Title: Hyper-Compression: Model Compression via Hyperfunction
- Title(参考訳): ハイパー圧縮:ハイパーファンクションによるモデル圧縮
- Authors: Fenglei Fan, Juntong Fan, Dayang Wang, Jingbo Zhang, Zelin Dong, Shijun Zhang, Ge Wang, Tieyong Zeng,
- Abstract要約: 本稿では,モデル圧縮をハイパーファンクションによるパラメータ表現問題に変換する,いわゆるハイパー圧縮を提案する。
これは、既存のプルーニング、量子化、蒸留、分解とは大きく異なるモデル圧縮のための新しいメカニズムを示唆している。
textbfPreferable compression ratio; 2) textbfNo post-hoc retraining; 3) textbfAffordable inference time; and 4) textbfShort compression time。
- 参考スコア(独自算出の注目度): 20.47369296713829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of large models' size has far outpaced that of computing resources. To bridge this gap, encouraged by the parsimonious relationship between genotype and phenotype in the brain's growth and development, we propose the so-called hyper-compression that turns the model compression into the issue of parameter representation via a hyperfunction. Specifically, it is known that the trajectory of some low-dimensional dynamic systems can fill the high-dimensional space eventually. Thus, hyper-compression, using these dynamic systems as the hyperfunctions, represents the parameters of the target network by their corresponding composition number or trajectory length. This suggests a novel mechanism for model compression, substantially different from the existing pruning, quantization, distillation, and decomposition. Along this direction, we methodologically identify a suitable dynamic system with the irrational winding as the hyperfunction and theoretically derive its associated error bound. Next, guided by our theoretical insights, we propose several engineering twists to make the hyper-compression pragmatic and effective. Lastly, systematic and comprehensive experiments confirm that hyper-compression enjoys the following \textbf{PNAS} merits: 1) \textbf{P}referable compression ratio; 2) \textbf{N}o post-hoc retraining; 3) \textbf{A}ffordable inference time; and 4) \textbf{S}hort compression time. It compresses LLaMA2-7B in an hour and achieves close-to-int4-quantization performance, without retraining and with a performance drop of less than 1\%. We have open-sourced our code in https://github.com/Juntongkuki/Hyper-Compression.git for free download and evaluation.
- Abstract(参考訳): 大規模モデルの急速な成長は、コンピューティングリソースよりもはるかに大きくなっている。
このギャップを埋めるために、脳の成長と発達における遺伝子型と表現型との相似関係により、モデル圧縮をハイパーファンクションを介してパラメータ表現の問題に変換する、いわゆるハイパー圧縮を提案する。
具体的には、いくつかの低次元力学系の軌道が最終的に高次元空間を埋めることが知られている。
したがって、これらの力学系をハイパーファンクションとして用いた超圧縮は、対象ネットワークのパラメータを対応する合成数または軌道長で表現する。
これは、既存のプルーニング、量子化、蒸留、分解とは大きく異なるモデル圧縮のための新しいメカニズムを示唆している。
この方向に沿って、不合理な巻線を超函数として適切な力学系を方法論的に同定し、理論的にその関連する誤差境界を導出する。
次に、我々の理論的知見に導かれ、超圧縮を実用的で効果的にするために、いくつかの工学的なツイストを提案する。
最後に、系統的かつ包括的な実験は、超圧縮が以下の「textbf{PNAS}」のメリットを享受していることを確認する。
1) \textbf{P}参照圧縮率
2) \textbf{N}o post-hoc retraining
3) \textbf{A}ffordable inference time, and
4) <textbf{S}hort 圧縮時間。
1時間でLLaMA2-7Bを圧縮し、再トレーニングや性能低下を1\%以下にすることなく、int4量子化性能を達成する。
私たちは、無償ダウンロードと評価のために、https://github.com/Juntongkuki/Hyper-Compression.gitでコードをオープンソース化しました。
関連論文リスト
- A General Error-Theoretical Analysis Framework for Constructing Compression Strategies [3.1316260533944007]
本稿では,各層に対して最適な圧縮レベルを決定するための圧縮誤差理論(CET)フレームワークを提案する。
具体的には、ResNet-34モデルでは、CETはオリジナルのモデルに匹敵する性能を保ちながら、パラメータ圧縮の約11$times$を達成する。
論文 参考訳(メタデータ) (2025-02-19T06:12:43Z) - Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。
1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。
実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文 参考訳(メタデータ) (2024-12-02T15:58:40Z) - EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。
これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:46:37Z) - Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - MCNC: Manifold-Constrained Reparameterization for Neural Compression [21.70510507535041]
我々は,manifold-Constrained Neural Compression (MCNC)と呼ばれる新しいモデル圧縮法を提案する。
提案した多様体にパラメータ空間を制約することにより、高品質な解を特定できる。
提案手法は, 圧縮, 精度, モデル再構成時間において, 最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-06-27T16:17:26Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Ultra Dual-Path Compression For Joint Echo Cancellation And Noise
Suppression [38.09558772881095]
固定圧縮比の下では、時間と周波数の両方の手法を組み合わせたデュアルパス圧縮により、さらなる性能向上が期待できる。
提案されたモデルは、高速なFullSubNetやDeepNetFilterと比較して、競争力のある性能を示している。
論文 参考訳(メタデータ) (2023-08-21T21:36:56Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Generative Adversarial Networks for Spatio-Spectral Compression of Hyperspectral Images [5.1333521217181755]
ハイパースペクトル画像(HSI)の圧縮のためのディープラーニングモデル
圧縮HSIにおける3DSSC(HiFiC_3D$)を用いたHiFiCブロックとHiFiCブロック(HiFi_CSE$)の2つの新しいモデルを導入する。
論文 参考訳(メタデータ) (2023-05-15T10:23:14Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Reliable Model Compression via Label-Preservation-Aware Loss Functions [14.368823297066276]
本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。
圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
論文 参考訳(メタデータ) (2020-12-03T00:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。