論文の概要: Improving Layer-wise Adaptive Rate Methods using Trust Ratio Clipping
- arxiv url: http://arxiv.org/abs/2011.13584v1
- Date: Fri, 27 Nov 2020 07:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:41:08.897235
- Title: Improving Layer-wise Adaptive Rate Methods using Trust Ratio Clipping
- Title(参考訳): 信頼率クリッピングを用いた層別適応率法の改良
- Authors: Jeffrey Fong, Siwei Chen, Kaiqi Chen
- Abstract要約: 大規模なバッチトレーニングは、トレーニング時間を大幅に削減するが、正確性を維持するには困難である。
近年, LARS や LAMB などの最適化手法が提案されている。
LAMBCと呼ばれるLAMBの新たな変種を提案する。LAMBCは,その大きさを安定させ,極端な値を防止するために,信頼率クリッピングを利用する。
- 参考スコア(独自算出の注目度): 13.589484139527466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training neural networks with large batch is of fundamental significance to
deep learning. Large batch training remarkably reduces the amount of training
time but has difficulties in maintaining accuracy. Recent works have put
forward optimization methods such as LARS and LAMB to tackle this issue through
adaptive layer-wise optimization using trust ratios. Though prevailing, such
methods are observed to still suffer from unstable and extreme trust ratios
which degrades performance. In this paper, we propose a new variant of LAMB,
called LAMBC, which employs trust ratio clipping to stabilize its magnitude and
prevent extreme values. We conducted experiments on image classification tasks
such as ImageNet and CIFAR-10 and our empirical results demonstrate promising
improvements across different batch sizes.
- Abstract(参考訳): 大きなバッチでニューラルネットワークをトレーニングすることは、ディープラーニングにとって基本的な重要性である。
大規模なバッチトレーニングは、トレーニング時間を大幅に削減するが、精度を維持するのに困難である。
最近の研究は、信頼率を用いた適応層別最適化を通じてこの問題に取り組むためにlarsやlambといった最適化手法を推し進めている。
一般的な手法ではあるが、これらの手法は依然として不安定で極端な信頼率に悩まされており、性能が低下している。
本稿では,その大きさを安定させ,極端な値を防止するため,信頼率クリッピングを用いたラムの新規変種であるlambcを提案する。
imagenetやcifar-10などの画像分類タスクについて実験を行い,各バッチサイズで有望な改善が得られた。
関連論文リスト
- Grad-Instructor: Universal Backpropagation with Explainable Evaluation Neural Networks for Meta-learning and AutoML [0.0]
評価ニューラルネットワーク(ENN)は、ターゲットネットワークの性能を予測するために、深層強化学習を通じて訓練される。
ENNは、バックプロパゲーション中に追加評価機能として機能する。
論文 参考訳(メタデータ) (2024-06-15T08:37:51Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Impact of Channel Variation on One-Class Learning for Spoof Detection [5.549602650463701]
スポット検出はASVシステムの信頼性を高めるが、チャネルの変動により著しく低下する。
MCTに最適なデータ供給戦略は何か?スプーフ検出では分かっていない。
本研究は、データ供給とミニバッチの低重要度プロセスが、より良いパフォーマンスのために改善する必要性の認識を高めることの関連性を強調した。
論文 参考訳(メタデータ) (2021-09-30T07:56:16Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - Does Data Augmentation Benefit from Split BatchNorms [29.134017115737507]
State-of-the-art data augmentationはトレーニングイメージを強く歪ませ、トレーニング中に見られる例と推論の間に相違をもたらす。
本稿では, 配信外, 強化画像に対する補助的BatchNormを提案する。
この手法により,CIFAR-10,CIFAR-100,ImageNetなどの画像分類ベンチマークの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-10-15T15:00:43Z) - Gradient-EM Bayesian Meta-learning [6.726255259929496]
ベイズメタラーニングの背後にある主要なアイデアは、階層的モデルのベイズ推論を経験的に行うことである。
本研究では、このフレームワークを様々な既存手法に拡張し、勾配-EMアルゴリズムに基づく変種を提案する。
正弦波回帰, 少数ショット画像分類, およびポリシーに基づく強化学習実験により, 本手法は計算コストを抑えて精度を向上するだけでなく, 不確実性に対しても頑健であることが示された。
論文 参考訳(メタデータ) (2020-06-21T10:52:59Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。