論文の概要: Layer-wise Model Pruning based on Mutual Information
- arxiv url: http://arxiv.org/abs/2108.12594v1
- Date: Sat, 28 Aug 2021 07:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 08:19:17.021077
- Title: Layer-wise Model Pruning based on Mutual Information
- Title(参考訳): 相互情報に基づく層別モデル刈り込み
- Authors: Chun Fan, Jiwei Li, Xiang Ao, Fei Wu, Yuxian Meng, Xiaofei Sun
- Abstract要約: 提案手法は,表現や行列をより小さいが高密度に圧縮できるため,不規則なメモリアクセスを回避し,高速化を実現する。
提案手法は,上位層におけるトレーニング信号に基づいて,よりグローバルな視点から動作し,各層が各層を介してグローバル信号の効果を伝搬することにより,同一の空間レベルの性能向上を実現する。
- 参考スコア(独自算出の注目度): 27.583869809219244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proposed pruning strategy offers merits over weight-based pruning
techniques: (1) it avoids irregular memory access since representations and
matrices can be squeezed into their smaller but dense counterparts, leading to
greater speedup; (2) in a manner of top-down pruning, the proposed method
operates from a more global perspective based on training signals in the top
layer, and prunes each layer by propagating the effect of global signals
through layers, leading to better performances at the same sparsity level.
Extensive experiments show that at the same sparsity level, the proposed
strategy offers both greater speedup and higher performances than weight-based
pruning methods (e.g., magnitude pruning, movement pruning).
- Abstract(参考訳): The proposed pruning strategy offers merits over weight-based pruning techniques: (1) it avoids irregular memory access since representations and matrices can be squeezed into their smaller but dense counterparts, leading to greater speedup; (2) in a manner of top-down pruning, the proposed method operates from a more global perspective based on training signals in the top layer, and prunes each layer by propagating the effect of global signals through layers, leading to better performances at the same sparsity level.
広汎な実験により、提案手法は重量ベースプルーニング法(マグニチュードプルーニング、ムーブプルーニングなど)よりも高いスピードアップと高いパフォーマンスを提供する。
関連論文リスト
- LayerMatch: Do Pseudo-labels Benefit All Layers? [77.59625180366115]
半教師付き学習はラベル付きデータの依存性を軽減するための有望なソリューションを提供する。
我々はGrad-ReLUとAvg-Clusteringという2つの層固有の擬似ラベル戦略を開発した。
提案手法は,標準的な半教師付き学習ベンチマークにおいて,例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-20T11:25:50Z) - Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy [67.45518210171024]
動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。
対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。
機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-04-10T12:12:07Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。
レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - Improving Adversarial Transferability via Intermediate-level
Perturbation Decay [79.07074710460012]
我々は,一段階の最適化で敵の例を再現する新しい中間レベル手法を開発した。
実験結果から, 種々の犠牲者モデルに対する攻撃において, 最先端技術よりも大きな差が認められた。
論文 参考訳(メタデータ) (2023-04-26T09:49:55Z) - Boosting Adversarial Transferability through Enhanced Momentum [50.248076722464184]
深層学習モデルは、人間の知覚できない摂動を良心的なイメージに加えることで、敵の例に弱い。
さまざまな運動量反復勾配に基づく方法が逆転性を改善するのに有効であることが示されている。
本稿では,逆伝達性をさらに高めるために,運動量反復勾配に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-03-19T03:10:32Z) - Sample Efficient Reinforcement Learning with REINFORCE [10.884278019498588]
本稿では,古典的政策勾配法と広く用いられているREINFORCE推定手法について考察する。
悪い」エピソードの数を制御することによって、常にサブリニアな高い後悔の束縛を確立し、平均的後悔のグローバル収束を、アナルなサブリニアレートでほぼ確実に確立する。
これらのアルゴリズムは、よく知られたREINFORCEアルゴリズムに対して、グローバル収束とサンプル効率の最初のセットを提供し、実際にの性能をよりよく理解するのに貢献する。
論文 参考訳(メタデータ) (2020-10-22T01:02:55Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z) - Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning [83.99191569112682]
マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。
我々は,単一層最適化を多層最適化に拡張することにより,単純なプルーニング法であるルックアヘッドプルーニングを開発した。
実験の結果,提案手法は様々なネットワーク上での大規模プルーニングよりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-02-12T05:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。