論文の概要: Sparse Training of Neural Networks based on Multilevel Mirror Descent
- arxiv url: http://arxiv.org/abs/2602.03535v1
- Date: Tue, 03 Feb 2026 13:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.480916
- Title: Sparse Training of Neural Networks based on Multilevel Mirror Descent
- Title(参考訳): 多レベルミラーDescentに基づくニューラルネットワークのスパーストレーニング
- Authors: Yannick Lunk, Sebastian J. Scott, Leon Bungert,
- Abstract要約: 本稿では,線形化されたブレグマン反復/ミラー降下に基づく動的スパーストレーニングアルゴリズムを提案する。
実験により,我々のアルゴリズムは標準ベンチマーク上で高度にスパースで正確なモデルを生成することができることを示す。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a dynamic sparse training algorithm based on linearized Bregman iterations / mirror descent that exploits the naturally incurred sparsity by alternating between periods of static and dynamic sparsity pattern updates. The key idea is to combine sparsity-inducing Bregman iterations with adaptive freezing of the network structure to enable efficient exploration of the sparse parameter space while maintaining sparsity. We provide convergence guaranties by embedding our method in a multilevel optimization framework. Furthermore, we empirically show that our algorithm can produce highly sparse and accurate models on standard benchmarks. We also show that the theoretical number of FLOPs compared to SGD training can be reduced from 38% for standard Bregman iterations to 6% for our method while maintaining test accuracy.
- Abstract(参考訳): 本稿では,線形化Bregman反復/ミラー降下に基づく動的スパーストレーニングアルゴリズムを提案する。
鍵となる考え方は、疎度を誘導するブレグマン反復と適応的なネットワーク構造の凍結を組み合わせることで、疎度を維持しながらスパースパラメータ空間の効率的な探索を可能にすることである。
多レベル最適化フレームワークにメソッドを埋め込むことにより収束保証を提供する。
さらに,本アルゴリズムが標準ベンチマーク上で,高度にスパースかつ高精度なモデルを生成することを実証的に示す。
また,SGDトレーニングと比較したFLOPの理論的数は,標準的なBregmanイテレーションの38%から,テスト精度を維持しながら6%に削減できることを示した。
関連論文リスト
- Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Complexity-Aware Training of Deep Neural Networks for Optimal Structure Discovery [0.0]
本稿では、トレーニング中に、トレーニング済みのネットワークを適用せずに機能するディープニューラルネットワークのユニット・レイヤ・プルーニングとレイヤ・プルーニングを組み合わせた新しいアルゴリズムを提案する。
本アルゴリズムは, 学習精度とプルーニングレベルを最適に交換し, ユニットプルーニングと計算量とパラメータ複雑性のバランスをとる。
提案アルゴリズムは,ネットワークに対応する最適化問題の解に収束することを示す。
論文 参考訳(メタデータ) (2024-11-14T02:00:22Z) - Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network [9.48424754175943]
本稿では、構造化ニューラルネットワークのトレーニングのための正規化適応モーメントデュアル平均化(RAMDA)を提案する。
定常収束点における正則化器によって誘導される理想構造が得られることを示す。
この構造は収束点付近で局所的に最適であるため、RAMDAは可能な限り最高の構造が得られることが保証される。
論文 参考訳(メタデータ) (2024-03-21T13:43:49Z) - Training Bayesian Neural Networks with Sparse Subspace Variational
Inference [35.241207717307645]
Sparse Subspace Variational Inference (SSVI) は、トレーニングと推論フェーズを通じて一貫した高度にスパースなモデルを維持する最初の完全なスパースBNNフレームワークである。
実験の結果, SSVIは, スパースBNNの製作に新たなベンチマークを設定し, 例えば, モデルサイズを10~20倍圧縮し, 性能低下を3%以下とし, トレーニング中に最大20倍のFLOPを削減した。
論文 参考訳(メタデータ) (2024-02-16T19:15:49Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Dynamic Sparse Training with Structured Sparsity [11.778353786208765]
ダイナミックスパーストレーニング(DST)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成する。
本研究では, 微細構造N:M空間の変形を学習するために, スパース・ツー・スパースDST法, Structured RigL (SRigL)を提案する。
オンライン推論用CPUでは3.4x/2.5x、GPUでは1.7x/13.0x、バッチサイズは256である。
論文 参考訳(メタデータ) (2023-05-03T17:48:55Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - A Bregman Learning Framework for Sparse Neural Networks [1.7778609937758323]
Bregmanの反復に基づく学習フレームワークを提案し、スパースニューラルネットワークを訓練する。
我々は、運動量を用いた加速版であるLinBregと、AdamアルゴリズムのBregmanized GeneralizationであるAdaBregというベースラインアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-05-10T12:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。