論文の概要: APP: Anytime Progressive Pruning
- arxiv url: http://arxiv.org/abs/2204.01640v1
- Date: Mon, 4 Apr 2022 16:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:34:47.656793
- Title: APP: Anytime Progressive Pruning
- Title(参考訳): APP: いつでもプログレッシブ・プルーニング
- Authors: Diganta Misra, Bharat Runwal, Tianlong Chen, Zhangyang Wang, Irina
Rish
- Abstract要約: 本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。
提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
- 参考スコア(独自算出の注目度): 104.36308667437397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the latest advances in deep learning, there has been a lot of focus on
the online learning paradigm due to its relevance in practical settings.
Although many methods have been investigated for optimal learning settings in
scenarios where the data stream is continuous over time, sparse networks
training in such settings have often been overlooked. In this paper, we explore
the problem of training a neural network with a target sparsity in a particular
case of online learning: the anytime learning at macroscale paradigm (ALMA). We
propose a novel way of progressive pruning, referred to as \textit{Anytime
Progressive Pruning} (APP); the proposed approach significantly outperforms the
baseline dense and Anytime OSP models across multiple architectures and
datasets under short, moderate, and long-sequence training. Our method, for
example, shows an improvement in accuracy of $\approx 7\%$ and a reduction in
the generalization gap by $\approx 22\%$, while being $\approx 1/3$ rd the size
of the dense baseline model in few-shot restricted imagenet training. We
further observe interesting nonmonotonic transitions in the generalization gap
in the high number of megabatches-based ALMA. The code and experiment
dashboards can be accessed at
\url{https://github.com/landskape-ai/Progressive-Pruning} and
\url{https://wandb.ai/landskape/APP}, respectively.
- Abstract(参考訳): ディープラーニングの最近の進歩により、実践的な環境での関連性から、オンライン学習パラダイムに多くの焦点が当てられている。
データストリームが時間とともに連続するシナリオにおいて、最適な学習設定のために多くの方法が研究されているが、そのような環境でのスパースネットワークトレーニングはしばしば見過ごされている。
本稿では,オンライン学習の特定の場合において,ニューラルネットワークをターゲット空間でトレーニングすることの問題点について考察する。
提案手法は,複数のアーキテクチャとデータセットにまたがるベースライン密度と任意の時間ospモデルを,短距離,中等度,長シーケンスのトレーニングで大幅に上回る。
例えば、この手法では、数発制限されたイメージネットトレーニングにおいて、密度ベースラインモデルの大きさの約1/3$ rdでありながら、約7\%$の精度の向上と一般化ギャップの削減を示す。
さらに,メガバッチベースALMAの一般化ギャップにおける興味深い非単調遷移を観察する。
コードと実験ダッシュボードは、それぞれ \url{https://github.com/landskape-ai/Progressive-Pruning} と \url{https://wandb.ai/landskape/APP} でアクセスできる。
関連論文リスト
- COSCO: A Sharpness-Aware Training Framework for Few-shot Multivariate Time Series Classification [19.593625378366472]
シャープネス認識最小化(SAM)最適化とプロトタイプ損失関数からなる新しい学習フレームワークCOSCOを提案する。
本研究では,提案手法が既存のベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:41:55Z) - iNeMo: Incremental Neural Mesh Models for Robust Class-Incremental Learning [22.14627083675405]
我々は、時間とともに新しいメッシュで拡張できるインクリメンタルニューラルネットワークモデルを提案する。
本研究では,Pascal3DおよびObjectNet3Dデータセットの広範な実験を通して,本手法の有効性を実証する。
我々の研究は、ポーズ推定のための最初の漸進的な学習手法も提示している。
論文 参考訳(メタデータ) (2024-07-12T13:57:49Z) - Automated Sizing and Training of Efficient Deep Autoencoders using
Second Order Algorithms [0.46040036610482665]
一般化線形分類器の多段階学習法を提案する。
検証エラーは不要な入力のプルーニングによって最小化される。
所望の出力は、Ho-Kashyapルールに似た方法で改善される。
論文 参考訳(メタデータ) (2023-08-11T16:48:31Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - GPr-Net: Geometric Prototypical Network for Point Cloud Few-Shot
Learning [2.4366811507669115]
GPr-Netは、点雲の原型位相を捉える軽量で計算効率の良い幾何学的ネットワークである。
GPr-Netは、ポイントクラウド上の数ショット学習において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-12T17:32:18Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Class Incremental Online Streaming Learning [40.97848249237289]
本稿では,これらの課題に対処するために,エンフォリンストリーミング環境におけるクラスインクリメンタル学習のための新しいアプローチを提案する。
提案手法は暗黙的かつ明示的な二重重み正規化と経験的リプレイを利用する。
また、モデルの性能を大幅に向上させる効率的なオンラインメモリ再生および置換バッファ戦略を提案する。
論文 参考訳(メタデータ) (2021-10-20T19:24:31Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。