論文の概要: CURing Large Models: Compression via CUR Decomposition
- arxiv url: http://arxiv.org/abs/2501.04211v2
- Date: Fri, 10 Jan 2025 14:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 12:07:37.910539
- Title: CURing Large Models: Compression via CUR Decomposition
- Title(参考訳): 大規模CURモデル:CUR分解による圧縮
- Authors: Sanghyeon Park, Soo-Mook Moon,
- Abstract要約: 本稿では,CUR行列分解に基づく新しいモデル圧縮手法であるCURingを紹介する。
情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。
例えば、Llama3.1-8Bのパラメータをわずか129秒で7.32B (-9%)に削減する。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License:
- Abstract: Large deep learning models have achieved remarkable success but are resource-intensive, posing challenges such as memory usage. We introduce CURing, a novel model compression method based on CUR matrix decomposition, which approximates weight matrices as the product of selected columns (C) and rows (R), and a small linking matrix (U). We apply this decomposition to weights chosen based on the combined influence of their magnitudes and activations. By identifying and retaining informative rows and columns, CURing significantly reduces model size with minimal performance loss. For example, it reduces Llama3.1-8B's parameters to 7.32B (-9%) in just 129 seconds, over 20 times faster than prior compression methods.
- Abstract(参考訳): 大規模なディープラーニングモデルは目覚ましい成功を収めているが、リソース集約であり、メモリ使用率などの課題を提起している。
CUR行列分解に基づく新しいモデル圧縮手法であるCURingを導入し、選択した列(C)と行(R)の積として重み行列を近似する。
この分解を、その大きさと活性化の複合的影響に基づいて選択された重みに適用する。
情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。
例えば、Llama3.1-8Bのパラメータをわずか129秒で7.32B (-9%)に削減する。
関連論文リスト
- Induced Covariance for Causal Discovery in Linear Sparse Structures [55.2480439325792]
因果モデルでは、観測データから変数間の因果関係を解き明かそうとしている。
本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T04:01:38Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Layer-Specific Optimization: Sensitivity Based Convolution Layers Basis Search [0.0]
畳み込み層の重みに対して行列分解を適用する新しい方法を提案する。
この方法の本質は、すべての畳み込みを訓練することではなく、畳み込みのサブセット(基底畳み込み)のみを訓練することであり、残りを基底の線形結合として表現することである。
ResNetファミリとCIFAR-10データセットによるモデル実験では、ベース畳み込みはモデルのサイズを減らすだけでなく、ネットワークの前方および後方通過を加速する。
論文 参考訳(メタデータ) (2024-08-12T09:24:48Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。
本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文 参考訳(メタデータ) (2023-11-08T23:57:03Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Robust CUR Decomposition: Theory and Imaging Applications [9.280330114137778]
本稿では、CUR分解フレームワークにおけるロバストPCAの使用とその応用を検討する。
我々は、ロバストPCAの2つの重要なイメージングアプリケーションを検討する:ビデオフォアグラウンド背景分離と顔モデリング。
論文 参考訳(メタデータ) (2021-01-05T17:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。