Fugu-MT 論文翻訳(概要): Sparsest Models Elude Pruning: An Exposé of Pruning's Current Capabilities

論文の概要: Sparsest Models Elude Pruning: An Exposé of Pruning's Current Capabilities

arxiv url: http://arxiv.org/abs/2407.04075v1
Date: Thu, 4 Jul 2024 17:33:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 17:14:12.598994
Title: Sparsest Models Elude Pruning: An Exposé of Pruning's Current Capabilities
Title（参考訳）: スパシストモデルとエレードプルーニング : プルーニングの現在の能力の露見
Authors: Stephen Zhang, Vardan Papyan,
Abstract要約: プルーニングは大規模モデルを圧縮するための有望なアプローチとして現れてきたが、モデルの範囲を回復する効果はまだ検討されていない。我々は485,838の実験を行い、キュビストスパイラルと名付けられた合成データセットに最先端のプルーニングアルゴリズムを適用した。そこで本研究では,新たな探索アルゴリズムによって同定した,理想的なスパースネットワークと比較して,性能の差が顕著であった。
参考スコア（独自算出の注目度）: 4.842973374883628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pruning has emerged as a promising approach for compressing large-scale models, yet its effectiveness in recovering the sparsest of models has not yet been explored. We conducted an extensive series of 485,838 experiments, applying a range of state-of-the-art pruning algorithms to a synthetic dataset we created, named the Cubist Spiral. Our findings reveal a significant gap in performance compared to ideal sparse networks, which we identified through a novel combinatorial search algorithm. We attribute this performance gap to current pruning algorithms' poor behaviour under overparameterization, their tendency to induce disconnected paths throughout the network, and their propensity to get stuck at suboptimal solutions, even when given the optimal width and initialization. This gap is concerning, given the simplicity of the network architectures and datasets used in our study. We hope that our research encourages further investigation into new pruning techniques that strive for true network sparsity.
Abstract（参考訳）: プルーニングは大規模モデルを圧縮するための有望なアプローチとして現れてきたが、モデルの範囲を回復する効果はまだ検討されていない。我々は485,838の実験を行い、キュビストスパイラルと名付けられた合成データセットに最先端のプルーニングアルゴリズムを適用した。本研究は,新しい組合せ探索アルゴリズムを用いて,理想的なスパースネットワークと比較して,性能の差が顕著であることを示した。この性能差は、過パラメータ化下での現在のプルーニングアルゴリズムの粗悪な動作、ネットワーク全体の不連結経路を誘導する傾向、最適幅と初期化が与えられた場合でも最適解に留まる確率に起因している。このギャップは、我々の研究で使用されるネットワークアーキテクチャとデータセットの単純さを考慮している。われわれの研究は、真のネットワークの空間性に挑戦する新たな刈り取り技術について、さらなる調査を奨励することを願っている。

関連論文リスト

Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文参考訳（メタデータ） (2024-09-17T19:59:57Z)
Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文参考訳（メタデータ） (2023-12-25T18:51:23Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation [4.748931281307333]
本稿では,個々のニューラルネットワーク層に対して最適なビット幅と層幅を自動的に選択する革新的な探索機構を提案する。これにより、ディープニューラルネットワークの効率が著しく向上する。
論文参考訳（メタデータ） (2023-08-12T00:16:51Z)
Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文参考訳（メタデータ） (2023-05-24T17:26:22Z)
Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文参考訳（メタデータ） (2021-10-20T06:15:45Z)
Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-06-15T06:39:13Z)
DessiLBI: Exploring Structural Sparsity of Deep Networks via Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。 DessiLBIが早期に「優勝チケット」を発表することを示す。
論文参考訳（メタデータ） (2020-07-04T04:40:16Z)
Fitting the Search Space of Weight-sharing NAS with Graph Convolutional Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文参考訳（メタデータ） (2020-04-17T19:12:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。