Fugu-MT 論文翻訳(概要): Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning

論文の概要: Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning

arxiv url: http://arxiv.org/abs/2305.14852v2
Date: Fri, 26 Apr 2024 05:50:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 18:27:27.337242
Title: Sparse Weight Averaging with Multiple Particles for Iterative Magnitude Pruning
Title（参考訳）: 繰り返しマグニチュード・プルーニングのための複数粒子を用いたスパースウェイト平均化
Authors: Moonseok Choi, Hyungi Lee, Giung Nam, Juho Lee,
Abstract要約: イテレーティブ・マグニチュード・プルーニング(IMP)は、その単純さにもかかわらず、特に非常にスパースな状況において、最先端のアルゴリズムである。 Sparse Weight Averaging with Multiple Particles (SWAMP)を提案する。これはIMPの簡単な修正であり、2つのIMPソリューションのアンサンブルに匹敵する性能を実現する。
参考スコア（独自算出の注目度）: 16.869553861212548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given the ever-increasing size of modern neural networks, the significance of sparse architectures has surged due to their accelerated inference speeds and minimal memory demands. When it comes to global pruning techniques, Iterative Magnitude Pruning (IMP) still stands as a state-of-the-art algorithm despite its simple nature, particularly in extremely sparse regimes. In light of the recent finding that the two successive matching IMP solutions are linearly connected without a loss barrier, we propose Sparse Weight Averaging with Multiple Particles (SWAMP), a straightforward modification of IMP that achieves performance comparable to an ensemble of two IMP solutions. For every iteration, we concurrently train multiple sparse models, referred to as particles, using different batch orders yet the same matching ticket, and then weight average such models to produce a single mask. We demonstrate that our method consistently outperforms existing baselines across different sparsities through extensive experiments on various data and neural network structures.
Abstract（参考訳）: 現代のニューラルネットワークのサイズが絶え間なく大きくなることを考えると、スパースアーキテクチャの重要性は、推論速度の加速と最小限のメモリ要求のために急上昇している。グローバルプルーニング技術に関して言えば、イテレーティブ・マグニチュード・プルーニング(IMP)は、非常にスパースな状況において、その単純さにもかかわらず、依然として最先端のアルゴリズムである。近年, 2 つの IMP ソリューションが損失障壁を伴わずに線形に接続されているという発見を踏まえ, 2 つの IMP ソリューションのアンサンブルに匹敵する性能を実現する IMP の簡単な修正である Sparse Weight Averaging with Multiple Particles (SWAMP) を提案する。各イテレーションにおいて、複数のスパースモデルを同時に訓練し、異なるバッチオーダを使用して、同じマッチングチケットを使用して、そのようなモデルを重み平均して1つのマスクを生成します。提案手法は,様々なデータやニューラルネットワーク構造に関する広範な実験を通じて,様々な空間にわたって既存のベースラインを一貫して上回ることを示す。

関連論文リスト

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文参考訳（メタデータ） (2025-12-28T05:48:55Z)
Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-20T13:53:58Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
Parallel-in-Time Solutions with Random Projection Neural Networks [0.07282584715927627]
本稿では、常微分方程式の解法であるパラレアルの基本的な並列時間法の一つを考察し、ニューラルネットワークを粗いプロパゲータとして採用することにより拡張する。提案アルゴリズムの収束特性を理論的に解析し,ローレンツ方程式やバーガースの方程式を含むいくつかの例に対して有効性を示す。
論文参考訳（メタデータ） (2024-08-19T07:32:41Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
A DeepParticle method for learning and generating aggregation patterns in multi-dimensional Keller-Segel chemotaxis systems [3.6184545598911724]
ケラー・セガル (KS) ケモタキシー系の2次元および3次元における凝集パターンと近傍特異解の正則化相互作用粒子法について検討した。さらに,物理パラメータの異なる解を学習し,生成するためのDeepParticle (DP) 法を開発した。
論文参考訳（メタデータ） (2022-08-31T20:52:01Z)
Sampling Approximately Low-Rank Ising Models: MCMC meets Variational Methods [35.24886589614034]
一般相互作用が$J$である超キューブ上の二次定値イジングモデルを考える。我々の一般的な結果は、低ランクのIsingモデルに対する最初のサンプリングアルゴリズムを示唆している。
論文参考訳（メタデータ） (2022-02-17T21:43:50Z)
Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文参考訳（メタデータ） (2021-05-26T17:01:52Z)
Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文参考訳（メタデータ） (2021-03-10T03:59:03Z)
Learning Sparse Filters in Deep Convolutional Neural Networks with a l1/l2 Pseudo-Norm [5.3791844634527495]
ディープニューラルネットワーク(DNN)は、多くのタスクで効率的であることが証明されているが、高いメモリと計算コストが伴う。近年の研究では、それらの構造は性能を損なうことなくよりコンパクトにすることができることが示されている。フィルタ係数に定義された比 l1/l2 の擬ノルムに基づいて, 疎度誘導正規化項を提案する。
論文参考訳（メタデータ） (2020-07-20T11:56:12Z)
Multipole Graph Neural Operator for Parametric Partial Differential Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文参考訳（メタデータ） (2020-06-16T21:56:22Z)
Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。現在の解は均一であり、全てのフィルタに同じビット幅を使用する。これは異なるフィルタの異なる感度を考慮せず、最適以下である。混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文参考訳（メタデータ） (2020-04-13T07:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。