Fugu-MT 論文翻訳(概要): Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models

論文の概要: Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models

arxiv url: http://arxiv.org/abs/2402.03142v2
Date: Sun, 9 Jun 2024 10:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 03:39:46.174599
Title: Less is KEN: a Universal and Simple Non-Parametric Pruning Algorithm for Large Language Models
Title（参考訳）: KEN:大規模言語モデルのための普遍的かつ簡易な非パラメトリックプルーニングアルゴリズム
Authors: Michele Mastromattei, Fabio Massimo Zanzotto,
Abstract要約: KENはカーネル密度推定(KDE)に基づく単純で普遍的で非構造化プルーニングアルゴリズムである Kenは、最適化されたトランスフォーマーを構築することを目的としており、最も重要なパラメータを選択的に保存し、他のパラメータをトレーニング前の状態に復元する。 Kenは、元の未実行バージョンと同等かそれ以上のパフォーマンスを達成し、パラメータの最小25%の削減を実現している。
参考スコア（独自算出の注目度）: 1.5807079236265718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural network pruning has become increasingly crucial due to the complexity of these models and their widespread use in various fields. Existing pruning algorithms often suffer from limitations such as architecture specificity, excessive complexity and reliance on demanding calculations, rendering them impractical for real-world applications. This paper introduces KEN: a straightforward, universal and unstructured pruning algorithm based on Kernel Density Estimation (KDE). KEN aims to construct optimized transformers by selectively preserving the most significant parameters while restoring others to their pre-training state. This strategy preserves model performance while enabling storage of only the optimized subnetwork, leading to substantial memory savings. Extensive evaluations across seven different LLMs demonstrate that KEN achieves equal or better performance than their original unpruned versions, with a minimum parameter reduction of 25%. Furthermore, in-depth comparisons with established pruning and PEFT algorithms confirm KEN effectiveness. We further introduce KEN$_{viz}$, an explainable tool that visualizes the optimized model composition achieved by KEN from different points of view.
Abstract（参考訳）: ニューラルネットワークのプルーニングは、これらのモデルの複雑さと様々な分野で広く使われているため、ますます重要になっている。既存のプルーニングアルゴリズムは、アーキテクチャの特異性、過剰な複雑さ、要求される計算への依存といった制限に悩まされ、現実のアプリケーションでは実用的ではない。本稿では,カーネル密度推定(KDE)に基づく,単純で普遍的で非構造化プルーニングアルゴリズムKENを紹介する。 KENは、最適化されたトランスフォーマーを構築することを目的としており、最も重要なパラメータを選択的に保存し、他のパラメータをトレーニング前の状態に復元する。この戦略は、最適化されたサブネットワークのみを格納しながらモデル性能を保ち、かなりのメモリ節約につながる。 7つの LLM の広範な評価は、KEN が元の未実行バージョンと同等かそれ以上の性能を達成し、パラメータの最小値が25% であることを示している。さらに、確立されたプルーニングとPEFTアルゴリズムとの詳細な比較により、KENの有効性が確認された。さらに、異なる視点から、KENが達成した最適化されたモデル構成を視覚化する説明可能なツールであるKEN$_{viz}$を紹介する。

関連論文リスト

CAMP-HiVe: Cyclic Pair Merging based Efficient DNN Pruning with Hessian-Vector Approximation for Resource-Constrained Systems [3.343542849202802]
CAMP-HiVeは,Hessian Vector近似を用いたサイクリックペアマージベースプルーニングである。実験により,提案手法が計算要求の大幅な削減を実現することを示す。既存の最先端のニューラルプルーニング法よりも優れています。
論文参考訳（メタデータ） (2025-11-09T07:58:36Z)
Relation-Aware Bayesian Optimization of DBMS Configurations Guided by Affinity Scores [2.474203056060563]
データベース管理システム(DBMS)は,大規模および異種データの管理に基本的であり,その性能は構成パラメータの影響を強く受けている。近年の研究では、機械学習を用いた自動構成最適化に焦点が当てられているが、既存のアプローチにはいくつかの重要な制限がある。パラメータ依存をグラフとして表現する新しいフレームワークであるRelTuneを提案し,パフォーマンス関連セマンティクスを符号化したGNNベースの潜伏埋め込みを学習する。
論文参考訳（メタデータ） (2025-10-31T03:46:42Z)
Lighter-X: An Efficient and Plug-and-play Strategy for Graph-based Recommendation through Decoupled Propagation [49.865020394064096]
我々は,既存のGNNベースのレコメンデータアーキテクチャとシームレスに統合可能な,効率的かつモジュール化されたフレームワークである textbfLighter-X を提案する。提案手法は,基本モデルの理論的保証と経験的性能を保ちながら,パラメータサイズと計算複雑性を大幅に低減する。実験の結果、Lighter-Xはパラメータが大幅に少ないベースラインモデルに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-10-11T08:33:08Z)
QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文参考訳（メタデータ） (2024-12-16T10:14:01Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
RL-Pruner: Structured Pruning Using Reinforcement Learning for CNN Compression and Acceleration [0.0]
RL-Prunerを提案する。このRL-Prunerは、強化学習を用いて最適プルーニング分布を学習する。 RL-Prunerは、モデル固有のプルーニング実装を必要とせずに、入力モデル内のフィルタ間の依存関係を自動的に抽出し、プルーニングを実行する。
論文参考訳（メタデータ） (2024-11-10T13:35:10Z)
MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。 MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文参考訳（メタデータ） (2024-08-24T05:54:47Z)
FALCON: FLOP-Aware Combinatorial Optimization for Neural Network Pruning [17.60353530072587]
ネットワークプルーニングは、性能を維持しながら、モデルサイズと計算コストを削減するソリューションを提供する。現在のプルーニング法のほとんどは、非ゼロパラメータの数を減らし、空間性を改善することに重点を置いている。本稿では,FALCONを提案する。FALCONは,モデル精度(忠実度),FLOP,スペーサ性制約を考慮に入れた,ネットワークプルーニングを最適化した新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T18:40:47Z)
SequentialAttention++ for Block Sparsification: Differentiable Pruning Meets Combinatorial Optimization [24.55623897747344]
ニューラルネットワークプルーニングは、大規模で拡張性があり、解釈可能で、一般化可能なモデルを構築するための重要な技術である。群スパース最適化の非正規化として,既存の微分可能なプルーニング手法がいくつあるかを示す。我々は、ImageNetとCriteoデータセット上の大規模ニューラルネットワークブロックワイドプルーニングタスクの最先端技術であるSequentialAttention++を提案する。
論文参考訳（メタデータ） (2024-02-27T21:42:18Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。 SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-23T18:37:22Z)
Shapley-NAS: Discovering Operation Contribution for Neural Architecture Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-20T14:41:49Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文参考訳（メタデータ） (2021-05-26T17:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。