Fugu-MT 論文翻訳(概要): Hyper-Compression: Model Compression via Hyperfunction

論文の概要: Hyper-Compression: Model Compression via Hyperfunction

arxiv url: http://arxiv.org/abs/2409.00592v2
Date: Sat, 14 Dec 2024 07:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.823495
Title: Hyper-Compression: Model Compression via Hyperfunction
Title（参考訳）: ハイパー圧縮:ハイパーファンクションによるモデル圧縮
Authors: Fenglei Fan, Juntong Fan, Dayang Wang, Jingbo Zhang, Zelin Dong, Shijun Zhang, Ge Wang, Tieyong Zeng,
Abstract要約: 本稿では,遺伝子型と表現型との相同性に着想を得た,いわゆるハイパー圧縮を提案する。 LLaMA2-7Bを1時間で圧縮し、再トレーニングすることなく、近距離から近距離までの量子化性能を達成する。我々の研究は、スケーリング法則とハードウェアアップグレードの停滞の間の調和を促進することができる。
参考スコア（独自算出の注目度）: 20.47369296713829
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid growth of large models' size has far outpaced that of GPU memory. To bridge this gap, inspired by the parsimonious relationship between genotype and phenotype, we turn the model compression problem into the issue of parameter representation to propose the so-called hyper-compression. The hyper-compression uses a hyperfunction to represent the parameters of the target network per ergodic theory, that addresses the following approximation problem: if a low-dimensional dynamic system can fill the high-dimensional space eventually. Empirically, the proposed hyper-compression enjoys the following merits: 1) \textbf{P}referable compression ratio; 2) \textbf{N}o post-hoc retraining; 3) \textbf{A}ffordable inference time; and 4) \textbf{S}hort compression time. It compresses LLaMA2-7B in an hour and achieves close-to-int4-quantization performance, without retraining and with a performance drop of less than 1\%. Our work can facilitate the harmony between the scaling law and the stagnation of hardware upgradation in terms of saving both computation and data. We have open-sourced our \href{https://github.com/Juntongkuki/Hyper-Compression.git}{code} for readers' free download and evaluation.
Abstract（参考訳）: 大型モデルの急速な成長はGPUメモリをはるかに上回っている。このギャップを埋めるために、ジェノタイプと表現型の関係から着想を得たモデル圧縮問題をパラメータ表現の問題に転換し、いわゆるハイパー圧縮を提案する。ハイパー圧縮は、高次元の力学系が最終的に高次元空間を埋めることができれば、以下の近似問題に対処するエルゴード理論当たりのターゲットネットワークのパラメータを表現するために超函数を使用する。実証的に、提案された超圧縮は以下の利点を享受する。 1) \textbf{P}参照圧縮率 2) \textbf{N}o post-hoc retraining 3) \textbf{A}ffordable inference time, and 4) <textbf{S}hort 圧縮時間。 1時間でLLaMA2-7Bを圧縮し、再トレーニングや性能低下を1\%以下にすることなく、int4量子化性能を達成する。我々の研究は、スケーリング法則とハードウェアアップグレードの停滞の間の調和を、計算とデータの両方の節約の観点から促進することができる。我々は,読者の無償ダウンロードと評価のために,<href{https://github.com/Juntongkuki/Hyper-Compression.git}{code} をオープンソース化した。

関連論文リスト

Gibbs randomness-compression proposition: An efficient deep learning [0.0]
本稿では,ギブズエントロピーによるランダム性圧縮関係を示す,ギブズランダム性圧縮命題を紹介する。 DTCフレームワークは、膨大なエネルギーとリソース効率のディープラーニングトレーニングに有望なアプローチを提供する。
論文参考訳（メタデータ） (2025-05-29T10:48:35Z)
A General Error-Theoretical Analysis Framework for Constructing Compression Strategies [3.1316260533944007]
本稿では,各層に対して最適な圧縮レベルを決定するための圧縮誤差理論(CET)フレームワークを提案する。具体的には、ResNet-34モデルでは、CETはオリジナルのモデルに匹敵する性能を保ちながら、パラメータ圧縮の約11$times$を達成する。
論文参考訳（メタデータ） (2025-02-19T06:12:43Z)
Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。 1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文参考訳（メタデータ） (2024-12-02T15:58:40Z)
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文参考訳（メタデータ） (2024-10-18T17:46:37Z)
Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。 FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文参考訳（メタデータ） (2024-10-10T15:13:08Z)
MCNC: Manifold-Constrained Reparameterization for Neural Compression [21.70510507535041]
我々は,manifold-Constrained Neural Compression (MCNC)と呼ばれる新しいモデル圧縮法を提案する。提案した多様体にパラメータ空間を制約することにより、高品質な解を特定できる。提案手法は, 圧縮, 精度, モデル再構成時間において, 最先端のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-06-27T16:17:26Z)
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:56Z)
"Lossless" Compression of Deep Neural Networks: A High-dimensional Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文参考訳（メタデータ） (2024-03-01T03:46:28Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
Ultra Dual-Path Compression For Joint Echo Cancellation And Noise Suppression [38.09558772881095]
固定圧縮比の下では、時間と周波数の両方の手法を組み合わせたデュアルパス圧縮により、さらなる性能向上が期待できる。提案されたモデルは、高速なFullSubNetやDeepNetFilterと比較して、競争力のある性能を示している。
論文参考訳（メタデータ） (2023-08-21T21:36:56Z)
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。 DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文参考訳（メタデータ） (2023-05-29T10:15:19Z)
Generative Adversarial Networks for Spatio-Spectral Compression of Hyperspectral Images [5.1333521217181755]
ハイパースペクトル画像(HSI)の圧縮のためのディープラーニングモデル圧縮HSIにおける3DSSC(HiFiC_3D$)を用いたHiFiCブロックとHiFiCブロック(HiFi_CSE$)の2つの新しいモデルを導入する。
論文参考訳（メタデータ） (2023-05-15T10:23:14Z)
Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文参考訳（メタデータ） (2022-03-21T11:44:17Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)
Reliable Model Compression via Label-Preservation-Aware Loss Functions [14.368823297066276]
本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
論文参考訳（メタデータ） (2020-12-03T00:00:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。