Fugu-MT 論文翻訳(概要): In defense of parameter sharing for model-compression

論文の概要: In defense of parameter sharing for model-compression

arxiv url: http://arxiv.org/abs/2310.11611v1
Date: Tue, 17 Oct 2023 22:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 18:16:06.253466
Title: In defense of parameter sharing for model-compression
Title（参考訳）: モデル圧縮のためのパラメータ共有の防御
Authors: Aditya Desai, Anshumali Shrivastava
Abstract要約: ランダム化パラメータ共有(RPS)法は、トレーニング開始時にモデル圧縮の牽引力を得た。 RPSは、より小さなモデルと、中程度に情報を得たプルーニング戦略を一貫して上回っている。本稿では, RPS モデルへのパラダイムシフトを論じる。
参考スコア（独自算出の注目度）: 38.80110838121722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When considering a model architecture, there are several ways to reduce its memory footprint. Historically, popular approaches included selecting smaller architectures and creating sparse networks through pruning. More recently, randomized parameter-sharing (RPS) methods have gained traction for model compression at start of training. In this paper, we comprehensively assess the trade-off between memory and accuracy across RPS, pruning techniques, and building smaller models. Our findings demonstrate that RPS, which is both data and model-agnostic, consistently outperforms/matches smaller models and all moderately informed pruning strategies, such as MAG, SNIP, SYNFLOW, and GRASP, across the entire compression range. This advantage becomes particularly pronounced in higher compression scenarios. Notably, even when compared to highly informed pruning techniques like Lottery Ticket Rewinding (LTR), RPS exhibits superior performance in high compression settings. This points out inherent capacity advantage that RPS enjoys over sparse models. Theoretically, we establish RPS as a superior technique in terms of memory-efficient representation when compared to pruning for linear models. This paper argues in favor of paradigm shift towards RPS based models. During our rigorous evaluation of RPS, we identified issues in the state-of-the-art RPS technique ROAST, specifically regarding stability (ROAST's sensitivity to initialization hyperparameters, often leading to divergence) and Pareto-continuity (ROAST's inability to recover the accuracy of the original model at zero compression). We provably address both of these issues. We refer to the modified RPS, which incorporates our improvements, as STABLE-RPS.
Abstract（参考訳）: モデルアーキテクチャを考えるとき、メモリフットプリントを減らす方法はいくつかある。歴史的に一般的なアプローチは、より小さなアーキテクチャを選択し、プルーニングを通じてスパースネットワークを作成することであった。最近では、ランダム化パラメータ共有(RPS)手法が訓練開始時のモデル圧縮の牽引力を高めている。本稿では,RPS,プルーニング技術,小型モデル構築におけるメモリと精度のトレードオフを包括的に評価する。以上の結果から,データとモデルに依存しないRCSは,より小さなモデルと,MAG,SNIP,SYNFLOW,GRASPといった中程度に情報提供されたプルーニング戦略を,圧縮範囲全体で一貫して上回っていることがわかった。この利点は特に高い圧縮シナリオで顕著になる。特に、Lottery Ticket Rewinding (LTR)のような高情報プルーニング技術と比較しても、RPSは高い圧縮設定において優れた性能を示す。このことは、RSSがスパースモデルよりも楽しむ固有のキャパシティの利点を指摘している。理論的には、線形モデルのプルーニングと比較してメモリ効率のよい表現法としてRCSを確立する。本稿では, RPS モデルへのパラダイムシフトを論じる。 RPSの厳密な評価では、ROASTの安定性(ROASTの初期化ハイパーパラメータに対する感度は、しばしばばらつきにつながる)とPareto-Continuity(ROASTがゼロ圧縮で元のモデルの精度を回復できない)について、最先端のRCS技術ROASTの問題点を特定した。これらの問題の両方に確実に対処する。改良されたRSSをSTABLE-RPSと呼ぶ。

関連論文リスト

Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning [20.62274005080048]
PruneNetは、ポリシー学習プロセスとしてモデルプルーニングを再構成する新しいモデル圧縮手法である。 LLaMA-2-7Bモデルはわずか15分で圧縮でき、ゼロショット性能の80%以上を維持できる。複雑なマルチタスク言語理解タスクでは、PruneNetはオリジナルのモデルの80%のパフォーマンスを維持することで、その堅牢性を実証している。
論文参考訳（メタデータ） (2025-01-25T18:26:39Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Learning Parameter Sharing with Tensor Decompositions and Sparsity [5.73573685846194]
本稿では,大きな視覚変換器モデルを効率よく圧縮する新しいアルゴリズムFiPSを提案する。 FiPSは、多層知覚モジュール間の共有ニューロンを表現するために、共有基底とスパース因子を用いる。実験により、FiPSはDei-BとSwin-LTを元のパラメータの25-40%まで圧縮し、元のモデルの1パーセンテージ以内の精度を維持した。
論文参考訳（メタデータ） (2024-11-14T21:29:58Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Enhancing One-shot Pruned Pre-trained Language Models through Sparse-Dense-Sparse Mechanism [25.36736897890854]
事前学習された言語モデル(PLM)は、文脈理解において堅牢で、様々な自然言語処理タスクにおいて優れた性能を示すように設計されている。現代のプルーニング戦略では、タスク特化データや一般的なデータの再トレーニングを必要とせずに、PLMを圧縮するためのワンショット技術を採用している。重み分布最適化の観点から, 刈り取られたPLMの性能を向上させるためのスパース・デンス・スパース・プルーニング・フレームワークであるSDSを提案する。
論文参考訳（メタデータ） (2024-08-20T01:05:45Z)
Unified Low-rank Compression Framework for Click-through Rate Prediction [15.813889566241539]
本稿では,CTR予測モデルを圧縮する低ランク分解フレームワークを提案する。私たちのフレームワークはオリジナルのモデルよりも優れたパフォーマンスを実現できます。我々のフレームワークは、様々なCTR予測モデルにテーブルやレイヤーを埋め込むのに利用できる。
論文参考訳（メタデータ） (2024-05-28T13:06:32Z)
RTP: Rethinking Tensor Parallelism with Memory Deduplication [3.036340414461332]
Rotated Parallelism(RTP)は、分散トレーニング環境におけるメモリ重複に着目した革新的なアプローチである。我々の経験的評価はRTPの効率を裏付けるものであり、分散システムトレーニング中のメモリ消費が極めて最適に近いことを示している。
論文参考訳（メタデータ） (2023-11-02T23:12:42Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Revisiting RCAN: Improved Training for Image Super-Resolution [94.8765153437517]
一般的なRCANモデルを再検討し、SRにおける異なるトレーニングオプションの効果について検討する。 RCAN は CNN をベースとした SR アーキテクチャのほぼすべてにおいて,標準ベンチマークで RCAN 以降のアーキテクチャよりも優れるか,あるいは適合することを示す。
論文参考訳（メタデータ） (2022-01-27T02:20:11Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
A Generic Network Compression Framework for Sequential Recommender Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。 CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文参考訳（メタデータ） (2020-04-21T08:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。