論文の概要: Large Language Model Compression with Global Rank and Sparsity Optimization
- arxiv url: http://arxiv.org/abs/2505.03801v1
- Date: Fri, 02 May 2025 08:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.822506
- Title: Large Language Model Compression with Global Rank and Sparsity Optimization
- Title(参考訳): 大域的ランクと疎度最適化を用いた大域的言語モデル圧縮
- Authors: Changhai Zhou, Qian Qiao, Weizhong Zhang, Cheng Jin,
- Abstract要約: 低ランクかつスパースな合成近似は、大規模言語モデルを圧縮する自然なアイデアである。
本稿では,大域的ランク付けと空間性最適化機能を備えた新しい2段階圧縮手法を提案する。
本手法はスペーシフィケーションと複合近似のための最先端技術を大幅に超える。
- 参考スコア(独自算出の注目度): 12.078838412963083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank and sparse composite approximation is a natural idea to compress Large Language Models (LLMs). However, such an idea faces two primary challenges that adversely affect the performance of existing methods. The first challenge relates to the interaction and cooperation between low-rank and sparse matrices, while the second involves determining weight allocation across different layers, as redundancy varies considerably among them. To address these challenges, we propose a novel two-stage LLM compression method with the capability of global rank and sparsity optimization. It is noteworthy that the overall optimization space is vast, making comprehensive optimization computationally prohibitive. Therefore, to reduce the optimization space, our first stage utilizes robust principal component analysis to decompose the weight matrices of LLMs into low-rank and sparse components, which span the low dimensional and sparse spaces containing the resultant low-rank and sparse matrices, respectively. In the second stage, we propose a probabilistic global optimization technique to jointly identify the low-rank and sparse structures within the above two spaces. The appealing feature of our approach is its ability to automatically detect the redundancy across different layers and to manage the interaction between the sparse and low-rank components. Extensive experimental results indicate that our method significantly surpasses state-of-the-art techniques for sparsification and composite approximation.
- Abstract(参考訳): 低ランクかつスパースな合成近似は、Large Language Models (LLM) を圧縮する自然な考え方である。
しかし、そのような考え方は既存の手法の性能に悪影響を及ぼす2つの主要な課題に直面している。
第1の課題は、低ランク行列とスパース行列の相互作用と協調に関係し、第2の課題は、異なる層間での重み付けを決定することである。
これらの課題に対処するために,グローバルなランク付けと空間的最適化機能を備えた2段階LLM圧縮手法を提案する。
全体的な最適化空間は広大なものであり、包括的な最適化は計算を禁止している。
そこで,本研究の第1段階では,LLMの重量行列を低次元およびスパース成分に分解するために,ロバストな主成分分析を用いて,低次元およびスパース成分を含むスパース空間をそれぞれ分解する。
第2段階では、上記の2つの空間内の低ランク構造とスパース構造を共同で同定する確率的大域最適化手法を提案する。
このアプローチの魅力は、異なるレイヤ間での冗長を自動的に検出し、スパースコンポーネントとローランクコンポーネント間の相互作用を管理する能力である。
以上の結果から,本手法はスペーシフィケーションおよび複合近似の最先端技術を大きく上回っていることが示唆された。
関連論文リスト
- Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。
提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文 参考訳(メタデータ) (2025-03-16T11:05:51Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Accelerating Distributed Optimization: A Primal-Dual Perspective on Local Steps [4.471962177124311]
分散機械学習では、異なるデータを持つ複数のエージェントにまたがる線形変数が大きな課題となる。
本稿では,原変数上のラグランジアン収束を実現するフレームワークは,エージェント間通信を必要としないことを示す。
論文 参考訳(メタデータ) (2024-07-02T22:14:54Z) - Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A consistent and flexible framework for deep matrix factorizations [17.49766938060264]
本稿では,深部MFに対して有意義な2つの損失関数を導入し,対応する最適化問題を解くための汎用フレームワークを提案する。
これらのモデルは、合成データと実データの両方、すなわちハイパースペクトルアンミックスと顔の特徴抽出にうまく適用されている。
論文 参考訳(メタデータ) (2022-06-21T19:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。