論文の概要: Iterative Averaging in the Quest for Best Test Error
- arxiv url: http://arxiv.org/abs/2003.01247v5
- Date: Sun, 31 Oct 2021 14:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:29:25.282594
- Title: Iterative Averaging in the Quest for Best Test Error
- Title(参考訳): ベストテストエラーの探求における反復平均化
- Authors: Diego Granziol, Xingchen Wan, Samuel Albanie, Stephen Roberts
- Abstract要約: 本稿では,ガウス過程摂動モデルを用いて,反復平均化の一般化性能の増大を解析・説明する。
我々は理論結果から最新の3つの現象を導出する。
CIFAR-10/100, ImageNet, Penn Treebank のデータセットにアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 22.987387623516614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyse and explain the increased generalisation performance of iterate
averaging using a Gaussian process perturbation model between the true and
batch risk surface on the high dimensional quadratic. We derive three phenomena
\latestEdits{from our theoretical results:} (1) The importance of combining
iterate averaging (IA) with large learning rates and regularisation for
improved regularisation. (2) Justification for less frequent averaging. (3)
That we expect adaptive gradient methods to work equally well, or better, with
iterate averaging than their non-adaptive counterparts. Inspired by these
results\latestEdits{, together with} empirical investigations of the importance
of appropriate regularisation for the solution diversity of the iterates, we
propose two adaptive algorithms with iterate averaging. These give
significantly better results compared to stochastic gradient descent (SGD),
require less tuning and do not require early stopping or validation set
monitoring. We showcase the efficacy of our approach on the CIFAR-10/100,
ImageNet and Penn Treebank datasets on a variety of modern and classical
network architectures.
- Abstract(参考訳): 高次元二次面上の真とバッチリスク面間のガウス過程摂動モデルを用いて, 平均化の一般化性能の増大を解析し, 説明する。
1) iterate averaging (ia) と大きな学習率を組み合わせることの重要性、および正規化を改善するための正規化の重要性。
2)頻度の低い平均化の正当化
3) 適応勾配法が, 適応的でない手法よりも反復的な平均化を繰り返すことで, 等しくうまく機能することを期待する。
これらの結果にインスピレーションを得て、反復体の解の多様性に対する適切な正則化の重要性を実証的に調査し、反復平均化を伴う2つの適応アルゴリズムを提案する。
これらは、確率勾配降下 (SGD) よりもかなり良い結果をもたらし、チューニングを少なくし、早期停止や検証セットの監視を必要としない。
我々は、cifar-10/100、imagenet、penn treebankの様々な現代的なネットワークアーキテクチャ上のデータセットにおける、このアプローチの有効性を示す。
関連論文リスト
- Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Adaptive Experimentation at Scale: A Computational Framework for
Flexible Batches [7.390918770007728]
結果がバッチで測定される少数の実測を含む実例によって動機付けられ,適応駆動型実験フレームワークを開発した。
我々の主な観察は、統計的推論において普遍的な正規近似は適応アルゴリズムの設計を導くことができることである。
論文 参考訳(メタデータ) (2023-03-21T04:17:03Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Gradient Descent Averaging and Primal-dual Averaging for Strongly Convex
Optimization [15.731908248435348]
強凸の場合の勾配降下平均化と主双進平均化アルゴリズムを開発する。
一次二重平均化は出力平均化の観点から最適な収束率を導出し、SC-PDAは最適な個々の収束を導出する。
SVMとディープラーニングモデルに関するいくつかの実験は、理論解析の正確性とアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2020-12-29T01:40:30Z) - BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods
to Deep Binary Model [34.093978443640616]
最近のBNN(Binary Neural Networks)の性能は大幅に低下している。
BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。
そこで本研究では,BAMSProdアルゴリズムを用いて,深部二元モデルの収束特性が量子化誤差と強く関連していることを示す。
論文 参考訳(メタデータ) (2020-09-29T06:12:32Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。