論文の概要: Experiments with Rich Regime Training for Deep Learning
- arxiv url: http://arxiv.org/abs/2102.13522v1
- Date: Fri, 26 Feb 2021 14:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 14:00:56.276205
- Title: Experiments with Rich Regime Training for Deep Learning
- Title(参考訳): 深層学習のためのリッチレギムトレーニングによる実験
- Authors: Xinyan Li and Arindam Banerjee
- Abstract要約: ほとんどのパラメータは遅延的であるが、トレーニング中にかなり変化する少数のアクティブパラメータが常に存在することに気付きます。
我々は、アクティブなパラメータのほとんどは、特にネットワークが広くなるにつれて、入力に近い下層にあることを示しています。
そこで本研究では,主に上位層を更新し,時には全ネットワークを更新する確率的LWS-SGDについて検討する。
- 参考スコア(独自算出の注目度): 30.502751750716392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spite of advances in understanding lazy training, recent work attributes
the practical success of deep learning to the rich regime with complex
inductive bias. In this paper, we study rich regime training empirically with
benchmark datasets, and find that while most parameters are lazy, there is
always a small number of active parameters which change quite a bit during
training. We show that re-initializing (resetting to their initial random
values) the active parameters leads to worse generalization. Further, we show
that most of the active parameters are in the bottom layers, close to the
input, especially as the networks become wider. Based on such observations, we
study static Layer-Wise Sparse (LWS) SGD, which only updates some subsets of
layers. We find that only updating the top and bottom layers have good
generalization and, as expected, only updating the top layers yields a fast
algorithm. Inspired by this, we investigate probabilistic LWS-SGD, which mostly
updates the top layers and occasionally updates the full network. We show that
probabilistic LWS-SGD matches the generalization performance of vanilla SGD and
the back-propagation time can be 2-5 times more efficient.
- Abstract(参考訳): 遅延トレーニングの理解の進歩にもかかわらず、最近の研究は、複雑な誘導バイアスを持つ豊かな体制に深層学習の実践的な成功を特徴とする。
本稿では,リッチレジームトレーニングをベンチマークデータセットを用いて経験的に検討し,ほとんどのパラメータが遅延であるが,トレーニング中にかなり変化する少数のアクティブパラメータが存在することを発見した。
活性パラメータの再初期化(初期乱数値のリセット)は、より悪い一般化をもたらすことを示す。
さらに、アクティブなパラメータのほとんどは、特にネットワークが広くなるにつれて、入力に近い下層にあることを示しています。
このような観測に基づいて、いくつかのレイヤのみを更新する静的なLayer-Wise Sparse (LWS) SGDについて検討する。
トップ層とボトム層の更新だけが良好な一般化を持ち、予想通りトップ層を更新するだけで高速なアルゴリズムが得られる。
そこで本研究では,主に上位層を更新し,時には全ネットワークを更新する確率的LWS-SGDについて検討する。
確率的LWS-SGDはバニラSGDの一般化性能と一致し、バックプロパゲーション時間は2~5倍効率がよいことを示す。
関連論文リスト
- PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Subspace Adaptation Prior for Few-Shot Learning [5.2997197698288945]
Subspace Adaptation Priorは、勾配に基づく新しいメタ学習アルゴリズムである。
SAPは, 画像分類設定において, 優位性, 競争性に優れることを示す。
論文 参考訳(メタデータ) (2023-10-13T11:40:18Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Simulated Annealing in Early Layers Leads to Better Generalization [14.850654434843326]
この作業では、後のレイヤの再初期化の代わりに、ネットワークのEArly Layer(SEAL)でシミュレートアニールを使用する。
人気の高いTiny-ImageNetデータセットベンチマークと一連のトランスファー学習と数ショットの学習タスクの実験は、LSFをかなりの差で上回っていることを示している。
また,本手法の予測深度はLLFと通常の訓練よりも有意に低く,平均予測性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-04-10T20:41:40Z) - The Unreasonable Effectiveness of Fully-Connected Layers for Low-Data
Regimes [3.7189423451031356]
少数のデータから一般化する枠組みを提案する。
完全に接続されたレイヤで最新のCNNを強化し、このアーキテクチャ変更が低データ体制にもたらす大きな影響を示します。
論文 参考訳(メタデータ) (2022-10-11T17:55:10Z) - Fast Hierarchical Learning for Few-Shot Object Detection [57.024072600597464]
転送学習アプローチは、最近、数ショット検出タスクで有望な結果を得た。
これらのアプローチは、ベース検出器の微調整による破滅的な忘れ込みの問題に悩まされる。
この作業における上記の問題に対処する。
論文 参考訳(メタデータ) (2022-10-10T20:31:19Z) - Challenging Common Assumptions about Catastrophic Forgetting [13.1202659074346]
本研究では,データ再帰を伴うタスクの長いシーケンスにおいて,勾配に基づくアルゴリズムを用いて訓練されたDNNにおける進歩的知識蓄積(KA)について検討する。
そこで我々は,SCoLeという新しいフレームワークを提案し,SGDで訓練したDNNに対して破滅的忘れ込みが限定的であることを示す。
論文 参考訳(メタデータ) (2022-07-10T21:40:54Z) - APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。
提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-04-04T16:38:55Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。