論文の概要: Thanos: A Block-wise Pruning Algorithm for Efficient Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2504.05346v1
- Date: Sun, 06 Apr 2025 11:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:32:27.955482
- Title: Thanos: A Block-wise Pruning Algorithm for Efficient Large Language Model Compression
- Title(参考訳): Thanos: 効率的な大規模言語モデル圧縮のためのブロックワイズプルーニングアルゴリズム
- Authors: Ivan Ilin, Peter Richtarik,
- Abstract要約: Thanosは、メモリフットプリントを削減し、大規模言語モデル(LLM)の計算効率を向上させるために設計された、新しい重み付けアルゴリズムである。
本稿では,適応マスクを用いたブロックワイドプルーニング方式を導入し,重み付けを動的に調整し,フレキシブルな空間パターンと構造化フォーマットを実現する。
実験により,サノスは非構造化プルーニングにおける既成手法よりも優れた最先端性能を達成できることが確認された。
- 参考スコア(独自算出の注目度): 0.6650227510403052
- License:
- Abstract: This paper presents Thanos, a novel weight-pruning algorithm designed to reduce the memory footprint and enhance the computational efficiency of large language models (LLMs) by removing redundant weights while maintaining accuracy. Thanos introduces a block-wise pruning strategy with adaptive masks that dynamically adjust to weight importance, enabling flexible sparsity patterns and structured formats, such as $n:m$ sparsity, optimized for hardware acceleration. Experimental evaluations demonstrate that Thanos achieves state-of-the-art performance in structured pruning and outperforms existing methods in unstructured pruning. By providing an efficient and adaptable approach to model compression, Thanos offers a practical solution for deploying large models in resource-constrained environments.
- Abstract(参考訳): 本稿では,メモリフットプリントの削減と大規模言語モデル(LLM)の計算効率の向上を目的として,冗長な重みを除去し,精度を保ちながら演算効率を向上させることを目的とした,新しい重み決定アルゴリズムであるTasosを提案する。
Thanosは、適応マスクによるブロックワイドプルーニング戦略を導入し、重量重み付けを動的に調整し、フレキシブルなスパシティパターンと、ハードウェアアクセラレーションに最適化された$n:m$スパシティのような構造化フォーマットを実現する。
実験により,サノスは非構造化プルーニングにおける既成手法よりも優れた最先端性能を達成できることが確認された。
モデル圧縮に対する効率的で適応的なアプローチを提供することで、Sanosはリソース制約のある環境で大規模モデルをデプロイするための実用的なソリューションを提供する。
関連論文リスト
- Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - Scalable iterative pruning of large language and vision models using block coordinate descent [0.31410859223862103]
重みの一部を除去するプルーニングニューラルネットワークは、しばしば高い精度を維持しながら、少なくとも一定の限界まで、モデルの複雑さを著しく低減する。
本稿では,Y Combinatorial Brain Surgeonに基づくニューラルネットワークのプルーニング手法を提案するが,ネットワーク重みのサブセットに対する最適化問題を反復的,ブロック的に解決する。
論文 参考訳(メタデータ) (2024-11-26T17:54:02Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning [7.239534396071191]
CapaBoostは、ターゲット層における並列重みモジュールによる低ランク更新を活用することで、モデルキャパシティを向上させる戦略である。
本稿では,自然言語理解,質問応答,画像分類など,さまざまな下流タスクの実験を通じて,CapaBoostの有効性を広く検証する。
以上の結果から,計算コストやストレージコストを増大させることなく,ベースラインよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-01T14:26:48Z) - Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information [5.756323337411276]
大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析などの高度な自然言語処理タスクを持つ。
数十億のパラメータで構成されるその大きなサイズは、ストレージ、計算、デプロイメントの課題を提起する。
我々は,LLMの効率的なブロックワイズ後量子化のための新しいアルゴリズムであるAthenaを提案する。
論文 参考訳(メタデータ) (2024-05-24T03:14:29Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。