Fugu-MT 論文翻訳(概要): Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models

論文の概要: Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models

arxiv url: http://arxiv.org/abs/2312.07046v1
Date: Tue, 12 Dec 2023 07:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 16:58:26.555647
Title: Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models
Title（参考訳）: 圧縮を再考する:大規模言語モデルにおける潜在特徴の低次モデリング
Authors: Arnav Chavan, Nahush Lele and Deepak Gupta
Abstract要約: 本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
参考スコア（独自算出の注目度）: 9.91972450276408
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to the substantial scale of Large Language Models (LLMs), the direct application of conventional compression methodologies proves impractical. The computational demands associated with even minimal gradient updates present challenges, particularly on consumer-grade hardware. This paper introduces an innovative approach for the parametric and practical compression of LLMs based on reduced order modelling, which entails low-rank decomposition within the feature space and re-parameterization in the weight space. Notably, this compression technique operates in a layer-wise manner, obviating the need for a GPU device and enabling the compression of billion-scale models within stringent constraints of both memory and time. Our method represents a significant advancement in model compression by leveraging matrix decomposition, demonstrating superior efficacy compared to the prevailing state-of-the-art structured pruning method.
Abstract（参考訳）: 大規模言語モデル(llm)の大規模化により、従来の圧縮手法の直接適用は実用的でないことが証明される。最小限の勾配更新を伴う計算要求は、特にコンシューマグレードのハードウェアにおいて問題となる。本稿では,特徴空間における低ランク分解と重み空間の再パラメータ化を伴う低次モデルに基づくllmのパラメトリック・実用的な圧縮手法を提案する。特に、この圧縮技術は階層的に動作し、GPUデバイスの必要性を回避し、メモリと時間の両方の厳密な制約の中で数十億のモデルの圧縮を可能にする。本手法は, マトリックス分解を利用したモデル圧縮の著しい進歩を示し, 従来の構造的プルーニング法と比較して優れた効果を示す。

関連論文リスト

On Information Geometry and Iterative Optimization in Model Compression: Operator Factorization [5.952537659103525]
我々は、多くのモデル圧縮手法が、この射影に対する情報分岐を暗黙的に近似するものとして理解することができると論じる。ソフトランク制約を受けるニューラルネットワークのトレーニングにおける反復特異値しきい値の収束性を証明する。
論文参考訳（メタデータ） (2025-07-12T23:39:14Z)
Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文参考訳（メタデータ） (2025-06-02T16:52:51Z)
FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文参考訳（メタデータ） (2025-05-29T19:42:35Z)
CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation [60.712165339762116]
CompGS++はコンパクトガウスプリミティブを活用して正確な3Dモデリングを実現する新しいフレームワークである。私たちの設計は、プリミティブ間の冗長性をなくすという原則に基づいている。私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。
論文参考訳（メタデータ） (2025-04-17T15:33:01Z)
MambaIC: State Space Models for High-Performance Learned Image Compression [53.991726013454695]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-16T11:32:34Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
SEE: Sememe Entanglement Encoding for Transformer-bases Models Compression [20.824040486029354]
トランスフォーマーベースの大規模言語モデルは画期的な能力を示すが、そのストレージと計算コストは高く、リソース制約のあるシナリオでの応用を制限している。効率的なアプローチは、圧縮と性能のバランスを達成するために、効率的な専門家由来の知識構造を取り入れながら、冗長なモデルパラメータと計算コストを排除することである。
論文参考訳（メタデータ） (2024-12-15T12:01:43Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
MCNC: Manifold Constrained Network Compression [21.70510507535041]
MCNCをパラメータ空間を低次元の事前定義および凍結された非線形多様体に制約する新しいモデル圧縮法として提示する。提案手法であるMCNCは, 圧縮, 精度, モデル再構成時間において, 最先端のベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2024-06-27T16:17:26Z)
Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。大型モデルの低ランク特性に関する実証的研究を行う。大規模言語モデルに適した低ランク圧縮手法を提案する。
論文参考訳（メタデータ） (2024-05-17T08:27:12Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Efficient Compression of Overparameterized Deep Models through Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文参考訳（メタデータ） (2023-11-08T23:57:03Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文参考訳（メタデータ） (2023-05-24T08:18:35Z)
What do Compressed Large Language Models Forget? Robustness Challenges in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文参考訳（メタデータ） (2021-10-16T00:20:04Z)
A Model Compression Method with Matrix Product Operators for Speech Enhancement [15.066942043773267]
本稿では,行列積演算子(MPO)に基づくモデル圧縮手法を提案する。本稿では,特にクラウドフリーアプリケーションにおいて,音声強調のための効果的なモデル圧縮手法を提案する。
論文参考訳（メタデータ） (2020-10-10T08:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。