論文の概要: Predicting the success of Gradient Descent for a particular
Dataset-Architecture-Initialization (DAI)
- arxiv url: http://arxiv.org/abs/2111.13075v1
- Date: Thu, 25 Nov 2021 13:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 07:36:21.775534
- Title: Predicting the success of Gradient Descent for a particular
Dataset-Architecture-Initialization (DAI)
- Title(参考訳): DAI(Dataset-Architecture-Initialization)におけるグラディエントDescentの成功予測
- Authors: Umangi Jain, Harish G. Ramaswamy
- Abstract要約: 我々は、ディープニューラルネットワークのトレーニングにおける標準勾配降下法の成功の判定に焦点をあてる。
DNNの隠れ層から得られる行列の特異値の進化は、勾配降下法の成功を決定するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 3.4570413826505564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their massive success, training successful deep neural networks still
largely relies on experimentally choosing an architecture, hyper-parameters,
initialization, and training mechanism. In this work, we focus on determining
the success of standard gradient descent method for training deep neural
networks on a specified dataset, architecture, and initialization (DAI)
combination. Through extensive systematic experiments, we show that the
evolution of singular values of the matrix obtained from the hidden layers of a
DNN can aid in determining the success of gradient descent technique to train a
DAI, even in the absence of validation labels in the supervised learning
paradigm. This phenomenon can facilitate early give-up, stopping the training
of neural networks which are predicted to not generalize well, early in the
training process. Our experimentation across multiple datasets, architectures,
and initializations reveals that the proposed scores can more accurately
predict the success of a DAI than simply relying on the validation accuracy at
earlier epochs to make a judgment.
- Abstract(参考訳): その大きな成功にもかかわらず、成功したディープニューラルネットワークのトレーニングは、アーキテクチャ、ハイパーパラメータ、初期化、トレーニングメカニズムを実験的に選択することに大きく依存している。
本研究では,特定のデータセット,アーキテクチャ,初期化(dai)の組み合わせでディープニューラルネットワークをトレーニングするための,標準的な勾配降下法の成功について検討する。
DNNの隠れ層から得られる行列の特異値の進化は、教師付き学習パラダイムに検証ラベルがない場合でも、DAIを訓練するための勾配降下法の成功を決定するのに有効であることを示す。
この現象は、トレーニングプロセスの早い段階で、うまく一般化しないと予測されるニューラルネットワークのトレーニングを停止することで、早期の学習を促進することができる。
複数のデータセット、アーキテクチャ、初期化をまたいだ実験により、提案したスコアは、判断を下すために、より早い時期の検証精度に頼るよりも、DAIの成功を正確に予測できることがわかった。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Robust Neural Pruning with Gradient Sampling Optimization for Residual Neural Networks [0.0]
この研究は、勾配サンプリング最適化技術、特にStochGradAdamをニューラルネットワークのプルーニングプロセスに統合するパイオニアとなる。
我々の主な目的は、資源制約のあるシナリオにおいて重要なプルーニングニューラルネットワークモデルの精度を維持するという重要な課題に対処することである。
論文 参考訳(メタデータ) (2023-12-26T12:19:22Z) - Finding Foundation Models for Time Series Classification with a PreText
Task [7.197233473373693]
本稿では,時系列分類のための事前訓練済みドメイン基盤モデルを提案する。
我々の方法論の重要な側面は、複数のデータセットにまたがる新しいプリテキストタスクである。
UCRアーカイブの実験では,この事前学習戦略が,事前学習を伴わずに従来の訓練方法よりも有意に優れていたことが示されている。
論文 参考訳(メタデータ) (2023-11-24T15:03:55Z) - Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism
with Neural Networks [25.75678339426731]
本稿では,QKVを用いたニューラルネットワークの計算手法について検討する。
我々は、IWSLT 2017ドイツ語翻訳タスクデータセットの実験を行い、従来の手法で近似した。
また,Wikitext-103データセットを用いてRobertaモデルをトレーニングする際の優位性を示した。
論文 参考訳(メタデータ) (2023-10-17T17:06:26Z) - Enhanced quantum state preparation via stochastic prediction of neural
network [0.8287206589886881]
本稿では,ニューラルネットワークの知識盲点を生かして,アルゴリズムの有効性を高めるための興味深い道を探る。
本手法は,半導体ダブル量子ドットシステムにおける任意の量子状態の生成に使用される機械学習アルゴリズムを中心にしている。
ニューラルネットワークが生成した予測を活用することにより、最適化プロセスの導出により、局所最適化を回避できる。
論文 参考訳(メタデータ) (2023-07-27T09:11:53Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Improving the Accuracy of Early Exits in Multi-Exit Architectures via
Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。
本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2021-04-21T11:12:35Z) - Dataset Meta-Learning from Kernel Ridge-Regression [18.253682891579402]
Kernel Inducing Points (KIP) はデータセットを1桁から2桁に圧縮することができる。
KIP学習データセットは、遅延学習体制を超えても有限幅ニューラルネットワークのトレーニングに転送可能である。
論文 参考訳(メタデータ) (2020-10-30T18:54:04Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。