論文の概要: KaFiStO: A Kalman Filtering Framework for Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2107.03331v1
- Date: Wed, 7 Jul 2021 16:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:17:19.554168
- Title: KaFiStO: A Kalman Filtering Framework for Stochastic Optimization
- Title(参考訳): kafisto: 確率最適化のためのkalmanフィルタフレームワーク
- Authors: Aram Davtyan, Sepehr Sameni, Llukman Cerkezi, Givi Meishvilli, Adam
Bielski, Paolo Favaro
- Abstract要約: ニューラルネットワークのトレーニングでは,サンプルのサブセットをランダムに選択することで,損失関数が時間とともに変化することを示す。
このランダム化は最適化問題を最適なものにする。
我々は、この損失を、何らかの参照に関してうるさい観察と見なすことを提案する。
- 参考スコア(独自算出の注目度): 27.64040983559736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization is often cast as a deterministic problem, where the solution is
found through some iterative procedure such as gradient descent. However, when
training neural networks the loss function changes over (iteration) time due to
the randomized selection of a subset of the samples. This randomization turns
the optimization problem into a stochastic one. We propose to consider the loss
as a noisy observation with respect to some reference optimum. This
interpretation of the loss allows us to adopt Kalman filtering as an optimizer,
as its recursive formulation is designed to estimate unknown parameters from
noisy measurements. Moreover, we show that the Kalman Filter dynamical model
for the evolution of the unknown parameters can be used to capture the gradient
dynamics of advanced methods such as Momentum and Adam. We call this stochastic
optimization method KaFiStO. KaFiStO is an easy to implement, scalable, and
efficient method to train neural networks. We show that it also yields
parameter estimates that are on par with or better than existing optimization
algorithms across several neural network architectures and machine learning
tasks, such as computer vision and language modeling.
- Abstract(参考訳): 最適化はしばしば決定論的問題として扱われ、解は勾配降下のような反復的な手順によって見つかる。
しかし、ニューラルネットワークをトレーニングする場合、サンプルのサブセットのランダムな選択により、損失関数は(イテレーション)時間とともに変化する。
このランダム化は最適化問題を確率的な問題に変える。
我々は,この損失を参照の最適化に関して,ノイズの多い観測と見なすことを提案する。
この損失の解釈は、雑音測定から未知のパラメータを推定するために再帰的定式化を設計するため、カルマンフィルタを最適化器として採用することができる。
さらに,未知パラメータの進化に対するカルマンフィルタの動的モデルを用いて,MomentumやAdamのような高度な手法の勾配ダイナミクスを捉えることができることを示す。
この確率最適化手法をKaFiStOと呼ぶ。
KaFiStOは、ニューラルネットワークをトレーニングするための、実装が容易で、スケーラブルで、効率的な方法である。
また、複数のニューラルネットワークアーキテクチャおよびコンピュータビジョンや言語モデリングなどの機械学習タスクにわたる既存の最適化アルゴリズムと同等かそれ以上のパラメータ推定結果が得られることを示す。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Optimal Rates for Random Order Online Optimization [60.011653053877126]
敵が損失関数を選択できるカテットガルバー2020onlineについて検討するが、一様にランダムな順序で提示される。
2020onlineアルゴリズムが最適境界を達成し,安定性を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T09:48:46Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - NOVAS: Non-convex Optimization via Adaptive Stochastic Search for
End-to-End Learning and Control [22.120942106939122]
本稿では,一般のニューラルネットワーク最適化操作において,適応探索をビルディングブロックとして用いることを提案する。
我々は、合成エネルギーベースの構造化タスクにおける既存の2つの代替案に対してベンチマークを行い、最適制御アプリケーションでの使用例を示す。
論文 参考訳(メタデータ) (2020-06-22T03:40:36Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。