論文の概要: In defense of parameter sharing for model-compression
- arxiv url: http://arxiv.org/abs/2310.11611v1
- Date: Tue, 17 Oct 2023 22:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:16:06.253466
- Title: In defense of parameter sharing for model-compression
- Title(参考訳): モデル圧縮のためのパラメータ共有の防御
- Authors: Aditya Desai, Anshumali Shrivastava
- Abstract要約: ランダム化パラメータ共有(RPS)法は、トレーニング開始時にモデル圧縮の牽引力を得た。
RPSは、より小さなモデルと、中程度に情報を得たプルーニング戦略を一貫して上回っている。
本稿では, RPS モデルへのパラダイムシフトを論じる。
- 参考スコア(独自算出の注目度): 38.80110838121722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When considering a model architecture, there are several ways to reduce its
memory footprint. Historically, popular approaches included selecting smaller
architectures and creating sparse networks through pruning. More recently,
randomized parameter-sharing (RPS) methods have gained traction for model
compression at start of training. In this paper, we comprehensively assess the
trade-off between memory and accuracy across RPS, pruning techniques, and
building smaller models. Our findings demonstrate that RPS, which is both data
and model-agnostic, consistently outperforms/matches smaller models and all
moderately informed pruning strategies, such as MAG, SNIP, SYNFLOW, and GRASP,
across the entire compression range. This advantage becomes particularly
pronounced in higher compression scenarios. Notably, even when compared to
highly informed pruning techniques like Lottery Ticket Rewinding (LTR), RPS
exhibits superior performance in high compression settings. This points out
inherent capacity advantage that RPS enjoys over sparse models. Theoretically,
we establish RPS as a superior technique in terms of memory-efficient
representation when compared to pruning for linear models. This paper argues in
favor of paradigm shift towards RPS based models. During our rigorous
evaluation of RPS, we identified issues in the state-of-the-art RPS technique
ROAST, specifically regarding stability (ROAST's sensitivity to initialization
hyperparameters, often leading to divergence) and Pareto-continuity (ROAST's
inability to recover the accuracy of the original model at zero compression).
We provably address both of these issues. We refer to the modified RPS, which
incorporates our improvements, as STABLE-RPS.
- Abstract(参考訳): モデルアーキテクチャを考えるとき、メモリフットプリントを減らす方法はいくつかある。
歴史的に一般的なアプローチは、より小さなアーキテクチャを選択し、プルーニングを通じてスパースネットワークを作成することであった。
最近では、ランダム化パラメータ共有(RPS)手法が訓練開始時のモデル圧縮の牽引力を高めている。
本稿では,RPS,プルーニング技術,小型モデル構築におけるメモリと精度のトレードオフを包括的に評価する。
以上の結果から,データとモデルに依存しないRCSは,より小さなモデルと,MAG,SNIP,SYNFLOW,GRASPといった中程度に情報提供されたプルーニング戦略を,圧縮範囲全体で一貫して上回っていることがわかった。
この利点は特に高い圧縮シナリオで顕著になる。
特に、Lottery Ticket Rewinding (LTR)のような高情報プルーニング技術と比較しても、RPSは高い圧縮設定において優れた性能を示す。
このことは、RSSがスパースモデルよりも楽しむ固有のキャパシティの利点を指摘している。
理論的には、線形モデルのプルーニングと比較してメモリ効率のよい表現法としてRCSを確立する。
本稿では, RPS モデルへのパラダイムシフトを論じる。
RPSの厳密な評価では、ROASTの安定性(ROASTの初期化ハイパーパラメータに対する感度は、しばしばばらつきにつながる)とPareto-Continuity(ROASTがゼロ圧縮で元のモデルの精度を回復できない)について、最先端のRCS技術ROASTの問題点を特定した。
これらの問題の両方に確実に対処する。
改良されたRSSをSTABLE-RPSと呼ぶ。
関連論文リスト
- RTP: Rethinking Tensor Parallelism with Memory Deduplication [3.036340414461332]
Rotated Parallelism(RTP)は、分散トレーニング環境におけるメモリ重複に着目した革新的なアプローチである。
我々の経験的評価はRTPの効率を裏付けるものであり、分散システムトレーニング中のメモリ消費が極めて最適に近いことを示している。
論文 参考訳(メタデータ) (2023-11-02T23:12:42Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [27.69586583737247]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Paoding: Supervised Robustness-preserving Data-free Neural Network
Pruning [3.6953655494795776]
エンフェータフリーコンテキストにおけるニューラルネットワークのプルーニングについて検討する。
従来の攻撃的なワンショット戦略を、プルーニングを進歩的なプロセスとして扱う保守的な戦略に置き換えます。
提案手法は,TextscPaodingというPythonパッケージとして実装され,多様なニューラルネットワークモデルに関する一連の実験により評価された。
論文 参考訳(メタデータ) (2022-04-02T07:09:17Z) - Revisiting RCAN: Improved Training for Image Super-Resolution [94.8765153437517]
一般的なRCANモデルを再検討し、SRにおける異なるトレーニングオプションの効果について検討する。
RCAN は CNN をベースとした SR アーキテクチャのほぼすべてにおいて,標準ベンチマークで RCAN 以降のアーキテクチャよりも優れるか,あるいは適合することを示す。
論文 参考訳(メタデータ) (2022-01-27T02:20:11Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。