論文の概要: CURing Large Models: Compression via CUR Decomposition
- arxiv url: http://arxiv.org/abs/2501.04211v1
- Date: Wed, 08 Jan 2025 01:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 16:10:19.530714
- Title: CURing Large Models: Compression via CUR Decomposition
- Title(参考訳): 大規模CURモデル:CUR分解による圧縮
- Authors: Sanghyeon Park, Soo-Mook Moon,
- Abstract要約: 本稿では,CUR行列分解に基づく新しいモデル圧縮手法であるCURingを紹介する。
情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。
これは、元のネットワークの入出力構造を保持し、非負性のような重要な特徴を保持し、圧縮されたモデルのアクティベーションパターンは元のものと一致している。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large deep learning models have achieved remarkable success but are resource-intensive, posing challenges in computational cost and memory usage. We introduce CURing, a novel model compression method based on CUR matrix decomposition, which approximates weight matrices as the product of selected columns (C) and rows (R), and a small linking matrix (U). We apply this decomposition to weights chosen based on the combined influence of their magnitudes and activations. By identifying and retaining informative rows and columns, CURing significantly reduces model size with minimal performance loss. It preserves the original network's input/output structures, retains important features such as non-negativity, and the compressed model's activation patterns align with the original, thereby enhancing interpretability.
- Abstract(参考訳): 大規模なディープラーニングモデルは目覚ましい成功を収めているが、リソース集約であり、計算コストとメモリ使用量の課題を提起している。
CUR行列分解に基づく新しいモデル圧縮手法であるCURingを導入し、選択した列(C)と行(R)の積として重み行列を近似する。
この分解を、その大きさと活性化の複合的影響に基づいて選択された重みに適用する。
情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。
これは、元のネットワークの入出力構造を保持し、非負性のような重要な特徴を保持し、圧縮されたモデルのアクティベーションパターンは元のものと一致し、解釈可能性を高める。
関連論文リスト
- Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。
本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文 参考訳(メタデータ) (2025-02-02T20:23:32Z) - tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation for Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。
ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。
テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-04T08:25:32Z) - Induced Covariance for Causal Discovery in Linear Sparse Structures [55.2480439325792]
因果モデルでは、観測データから変数間の因果関係を解き明かそうとしている。
本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T04:01:38Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。
MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T05:57:55Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。
本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文 参考訳(メタデータ) (2023-11-08T23:57:03Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Robust CUR Decomposition: Theory and Imaging Applications [9.280330114137778]
本稿では、CUR分解フレームワークにおけるロバストPCAの使用とその応用を検討する。
我々は、ロバストPCAの2つの重要なイメージングアプリケーションを検討する:ビデオフォアグラウンド背景分離と顔モデリング。
論文 参考訳(メタデータ) (2021-01-05T17:58:15Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。