論文の概要: Large Language Model Compression with Global Rank and Sparsity Optimization
- arxiv url: http://arxiv.org/abs/2505.03801v1
- Date: Fri, 02 May 2025 08:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.822506
- Title: Large Language Model Compression with Global Rank and Sparsity Optimization
- Title(参考訳): 大域的ランクと疎度最適化を用いた大域的言語モデル圧縮
- Authors: Changhai Zhou, Qian Qiao, Weizhong Zhang, Cheng Jin,
- Abstract要約: 低ランクかつスパースな合成近似は、大規模言語モデルを圧縮する自然なアイデアである。
本稿では,大域的ランク付けと空間性最適化機能を備えた新しい2段階圧縮手法を提案する。
本手法はスペーシフィケーションと複合近似のための最先端技術を大幅に超える。
- 参考スコア(独自算出の注目度): 12.078838412963083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank and sparse composite approximation is a natural idea to compress Large Language Models (LLMs). However, such an idea faces two primary challenges that adversely affect the performance of existing methods. The first challenge relates to the interaction and cooperation between low-rank and sparse matrices, while the second involves determining weight allocation across different layers, as redundancy varies considerably among them. To address these challenges, we propose a novel two-stage LLM compression method with the capability of global rank and sparsity optimization. It is noteworthy that the overall optimization space is vast, making comprehensive optimization computationally prohibitive. Therefore, to reduce the optimization space, our first stage utilizes robust principal component analysis to decompose the weight matrices of LLMs into low-rank and sparse components, which span the low dimensional and sparse spaces containing the resultant low-rank and sparse matrices, respectively. In the second stage, we propose a probabilistic global optimization technique to jointly identify the low-rank and sparse structures within the above two spaces. The appealing feature of our approach is its ability to automatically detect the redundancy across different layers and to manage the interaction between the sparse and low-rank components. Extensive experimental results indicate that our method significantly surpasses state-of-the-art techniques for sparsification and composite approximation.
- Abstract(参考訳): 低ランクかつスパースな合成近似は、Large Language Models (LLM) を圧縮する自然な考え方である。
しかし、そのような考え方は既存の手法の性能に悪影響を及ぼす2つの主要な課題に直面している。
第1の課題は、低ランク行列とスパース行列の相互作用と協調に関係し、第2の課題は、異なる層間での重み付けを決定することである。
これらの課題に対処するために,グローバルなランク付けと空間的最適化機能を備えた2段階LLM圧縮手法を提案する。
全体的な最適化空間は広大なものであり、包括的な最適化は計算を禁止している。
そこで,本研究の第1段階では,LLMの重量行列を低次元およびスパース成分に分解するために,ロバストな主成分分析を用いて,低次元およびスパース成分を含むスパース空間をそれぞれ分解する。
第2段階では、上記の2つの空間内の低ランク構造とスパース構造を共同で同定する確率的大域最適化手法を提案する。
このアプローチの魅力は、異なるレイヤ間での冗長を自動的に検出し、スパースコンポーネントとローランクコンポーネント間の相互作用を管理する能力である。
以上の結果から,本手法はスペーシフィケーションおよび複合近似の最先端技術を大きく上回っていることが示唆された。
関連論文リスト
- Globally optimized SVD compression of LLMs via Fermi-function-based rank selection and gauge fixing [0.0]
LLM(Large Language Models)の低ランク分解は、計算資源の観点から非常に要求される。
我々はSVD圧縮に物理に着想を得た2つの改良点を提示する: textbfFermiGrad, 世界的最適層次数を決定する勾配差アルゴリズム, textbfPivGa, そして低ランク因子の余分な圧縮である textbfPivGa。
論文 参考訳(メタデータ) (2025-11-26T10:54:01Z) - Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。
これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文 参考訳(メタデータ) (2025-11-18T17:51:17Z) - Near-optimal Linear Predictive Clustering in Non-separable Spaces via Mixed Integer Programming and Quadratic Pseudo-Boolean Reductions [21.80447518126464]
線形予測クラスタリング(LPC)は、特徴変数と対象変数の間の共有線形関係に基づいてサンプルを分割する。
LPCで一般的に使用されるグレディ最適化法はクラスタリングと線形回帰を交互に行うが、大域的最適性は欠いている。
この研究は、LPCのグローバル最適化の効率を改善する2つの新しいアプローチを導入するために、制約付き最適化パラダイムに基づいている。
論文 参考訳(メタデータ) (2025-11-13T21:22:47Z) - 1+1>2: A Synergistic Sparse and Low-Rank Compression Method for Large Language Models [15.798945727818753]
大規模言語モデル(LLM)のためのアンダーラインSynergistic UnderlineSparseとアンダーライン圧縮(SSLC)メソッドを導入する。
低ランク近似は、その必須構造を最小限の情報損失で保持することでモデルを圧縮するが、スパース最適化は非決定的な重みを排除し、一般化に不可欠なものを保存する。
LLaMAとQwen2.5モデル(7B-70B)の実験では、SSLCは追加のトレーニングステップなしで、スタンドアロンメソッドを一貫して上回り、最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-10-30T12:50:30Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - L-SR1: Learned Symmetric-Rank-One Preconditioning [5.421390145168128]
エンドツーエンドのディープラーニングは目覚ましい結果を得たが、大きなラベル付きデータセットに依存しているため、依然として制限されている。
対照的に、古典最適化法はデータ効率が高く軽量であるが、しばしば収束が遅い。
そこで本研究では,古典的シンメトリー・ランクワンアルゴリズムを強化するために,トレーニング可能なプレコンディショニングユニットを導入した新しい2次ベクトルを提案する。
論文 参考訳(メタデータ) (2025-08-17T07:37:29Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - MLoRQ: Bridging Low-Rank and Quantization for Transformer Compression [2.9907287985468924]
MLoRQ(Mixed Low-Rank and Quantization)は、低ランク近似と混合精度量子化を統合する新しい手法である。
MLoRQは、最先端の結果を最大15%のパフォーマンス改善で示している。
論文 参考訳(メタデータ) (2025-07-13T12:48:46Z) - MGAA: Multi-Granular Adaptive Allocation fof Low-Rank Compression of LLMs [9.244526043014098]
MGAA (Multi-Granular Adaptive Allocation) 法は, 圧縮過程においてタスク固有の評価を伴わずに, サブレイヤ内およびサブレイヤ間のパラメータを適応的に割り当てることができる。
複数のLLMのバックボーンモデルとベンチマークデータセットによるMGAAの総合評価は、その優れた性能を示している。
論文 参考訳(メタデータ) (2025-07-04T04:54:01Z) - A Gradient Meta-Learning Joint Optimization for Beamforming and Antenna Position in Pinching-Antenna Systems [63.213207442368294]
マルチ導波路ピンチアンテナシステムの新しい最適化設計について検討する。
提案したGML-JOアルゴリズムは,既存の最適化手法と比較して,様々な選択や性能に頑健である。
論文 参考訳(メタデータ) (2025-06-14T17:35:27Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Highly Efficient and Effective LLMs with Multi-Boolean Architectures [1.4195677954898822]
大型言語モデル(LLM)の複雑さを劇的に減らすための有望な戦略として、重み二項化が登場した。
本稿では,LLMをマルチカーネルブールパラメータに効果的に変換する新しいフレームワークを提案する。
提案手法は,近年の超低ビット量子化法とバイナライゼーション法より優れている。
論文 参考訳(メタデータ) (2025-05-28T19:40:34Z) - Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。
提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文 参考訳(メタデータ) (2025-03-16T11:05:51Z) - COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Accelerating Distributed Optimization: A Primal-Dual Perspective on Local Steps [4.471962177124311]
分散機械学習では、異なるデータを持つ複数のエージェントにまたがる線形変数が大きな課題となる。
本稿では,原変数上のラグランジアン収束を実現するフレームワークは,エージェント間通信を必要としないことを示す。
論文 参考訳(メタデータ) (2024-07-02T22:14:54Z) - Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A consistent and flexible framework for deep matrix factorizations [17.49766938060264]
本稿では,深部MFに対して有意義な2つの損失関数を導入し,対応する最適化問題を解くための汎用フレームワークを提案する。
これらのモデルは、合成データと実データの両方、すなわちハイパースペクトルアンミックスと顔の特徴抽出にうまく適用されている。
論文 参考訳(メタデータ) (2022-06-21T19:20:35Z) - EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm
for Constrained Global Optimization [68.8204255655161]
EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。
これはよく知られた微分進化(DE)アルゴリズムに多くの改良を加えている。
その結果、EOSisは、最先端の単一人口自己適応Dアルゴリズムと比較して高い性能を達成可能であることが証明された。
論文 参考訳(メタデータ) (2020-07-09T10:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。