Fugu-MT 論文翻訳(概要): CURing Large Models: Compression via CUR Decomposition

論文の概要: CURing Large Models: Compression via CUR Decomposition

arxiv url: http://arxiv.org/abs/2501.04211v2
Date: Fri, 10 Jan 2025 14:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 14:44:07.022737
Title: CURing Large Models: Compression via CUR Decomposition
Title（参考訳）: 大規模CURモデル:CUR分解による圧縮
Authors: Sanghyeon Park, Soo-Mook Moon,
Abstract要約: 本稿では,CUR行列分解に基づく新しいモデル圧縮手法であるCURingを紹介する。情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。例えば、Llama3.1-8Bのパラメータをわずか129秒で7.32B (-9%)に削減する。
参考スコア（独自算出の注目度）: 1.1510009152620668
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large deep learning models have achieved remarkable success but are resource-intensive, posing challenges such as memory usage. We introduce CURing, a novel model compression method based on CUR matrix decomposition, which approximates weight matrices as the product of selected columns (C) and rows (R), and a small linking matrix (U). We apply this decomposition to weights chosen based on the combined influence of their magnitudes and activations. By identifying and retaining informative rows and columns, CURing significantly reduces model size with minimal performance loss. For example, it reduces Llama3.1-8B's parameters to 7.32B (-9%) in just 129 seconds, over 20 times faster than prior compression methods.
Abstract（参考訳）: 大規模なディープラーニングモデルは目覚ましい成功を収めているが、リソース集約であり、メモリ使用率などの課題を提起している。 CUR行列分解に基づく新しいモデル圧縮手法であるCURingを導入し、選択した列(C)と行(R)の積として重み行列を近似する。この分解を、その大きさと活性化の複合的影響に基づいて選択された重みに適用する。情報的行と列を識別および保持することにより、CURingはパフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減する。例えば、Llama3.1-8Bのパラメータをわずか129秒で7.32B (-9%)に削減する。

関連論文リスト

ResSVD: Residual Compensated SVD for Large Language Model Compression [12.539815070352116]
大規模言語モデル(LLM)は、幅広い下流自然言語処理タスクにおいて印象的な機能を示している。本稿では,ポストトレーニング後のSVDに基づくLLM圧縮手法であるResSVDを提案する。トラニケート過程中に発生する残留行列を利用してトラニケート損失を低減する。
論文参考訳（メタデータ） (2025-05-26T15:14:54Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
HASSLE-free: A unified Framework for Sparse plus Low-Rank Matrix Decomposition for LLMs [15.575498324678373]
有望な圧縮スキームは、基礎モデルの密度重みをスパースと低ランク行列の和に分解することである。本稿では,半構造化)スパースと低ランク行列分解のためのHASSLEフリーの統一フレームワークを設計する。
論文参考訳（メタデータ） (2025-02-02T20:23:32Z)
tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation for Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文参考訳（メタデータ） (2025-01-04T08:25:32Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Induced Covariance for Causal Discovery in Linear Sparse Structures [55.2480439325792]
因果モデルでは、観測データから変数間の因果関係を解き明かそうとしている。本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-02T04:01:38Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。 MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T05:57:55Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Efficient Compression of Overparameterized Deep Models through Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文参考訳（メタデータ） (2023-11-08T23:57:03Z)
Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文参考訳（メタデータ） (2023-07-02T13:59:47Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-06-30T21:57:07Z)
Robust CUR Decomposition: Theory and Imaging Applications [9.280330114137778]
本稿では、CUR分解フレームワークにおけるロバストPCAの使用とその応用を検討する。我々は、ロバストPCAの2つの重要なイメージングアプリケーションを検討する:ビデオフォアグラウンド背景分離と顔モデリング。
論文参考訳（メタデータ） (2021-01-05T17:58:15Z)
A Generic Network Compression Framework for Sequential Recommender Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。 CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文参考訳（メタデータ） (2020-04-21T08:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。