論文の概要: Variance-Reduced Methods for Machine Learning
- arxiv url: http://arxiv.org/abs/2010.00892v1
- Date: Fri, 2 Oct 2020 09:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:15:05.581936
- Title: Variance-Reduced Methods for Machine Learning
- Title(参考訳): 機械学習における変数生成手法
- Authors: Robert M. Gower, Mark Schmidt, Francis Bach, Peter Richtarik
- Abstract要約: 勾配(SGD)は機械学習の基盤であり、その基礎は60年以上前に導入された手法である。
この8年間、エキサイティングな開発が行われてきた。最適化方法をトレーニングするための新しいVRメソッドだ。
この本は、有限データセットによるVRメソッドの背後にある重要な原則と主要な開発について説明している。
- 参考スコア(独自算出の注目度): 16.878209369942823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic optimization lies at the heart of machine learning, and its
cornerstone is stochastic gradient descent (SGD), a method introduced over 60
years ago. The last 8 years have seen an exciting new development: variance
reduction (VR) for stochastic optimization methods. These VR methods excel in
settings where more than one pass through the training data is allowed,
achieving a faster convergence than SGD in theory as well as practice. These
speedups underline the surge of interest in VR methods and the fast-growing
body of work on this topic. This review covers the key principles and main
developments behind VR methods for optimization with finite data sets and is
aimed at non-expert readers. We focus mainly on the convex setting, and leave
pointers to readers interested in extensions for minimizing non-convex
functions.
- Abstract(参考訳): 確率的最適化は機械学習の中心にあり、その基礎は60年以上前に導入された確率的勾配降下(SGD)である。
過去8年間、確率的最適化手法のための分散還元(VR)という、エキサイティングな新しい開発がありました。
これらのVRメソッドは、複数のトレーニングデータを渡すことが可能な環境で優れており、理論上はSGDよりも高速な収束を実現している。
これらのスピードアップは、VRメソッドへの関心の高まりと、このトピックに関する急速に成長する仕事の本体を下支えしている。
このレビューでは、有限データセットによる最適化のためのvrメソッドの背後にある重要な原則と主要な開発について取り上げ、非熟練の読者を対象としている。
我々は主に凸設定に注目し、非凸関数を最小化するための拡張に関心のある読者にポインタを与える。
関連論文リスト
- Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for
Unbounded Functions [23.746620619512573]
最近の研究は「メガバッチ」の勾配を計算する効果を克服している
作業は、競争力のあるディープラーニングタスクで更新された後に広く使用される。
論文 参考訳(メタデータ) (2022-09-29T15:12:54Z) - Gradient Descent, Stochastic Optimization, and Other Tales [8.034728173797953]
このチュートリアルは、勾配降下法と最適化法の形式的側面と非公式な側面の両方に対処することを避けない。
勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。
ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配が使用される。
論文 参考訳(メタデータ) (2022-05-02T12:06:53Z) - Adaptive Accelerated (Extra-)Gradient Methods with Variance Reduction [25.94147708122371]
AdaVRAE(Adaptive Variance Reduced Accelerated Extra-Gradient)とAdaVRAG(Adaptive Variance Reduced Accelerated Gradient)の2つの新しい適応VRアルゴリズムを提案する。
我々のアルゴリズムは滑らかさパラメータの知識を必要としない。
実世界のデータセットを用いた実験において,従来の手法と比較して,アルゴリズムの性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-01-28T18:07:25Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization [1.7970523486905976]
本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。
前方KL分散を用いた新しい最適化手法を導出する。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-27T08:24:51Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。
まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。
次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文 参考訳(メタデータ) (2020-03-27T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。