論文の概要: A survey of deep learning optimizers-first and second order methods
- arxiv url: http://arxiv.org/abs/2211.15596v1
- Date: Mon, 28 Nov 2022 17:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 16:32:25.808275
- Title: A survey of deep learning optimizers-first and second order methods
- Title(参考訳): ディープラーニングオプティマイザの探索-第1および第2次方法-
- Authors: Rohan V Kashyap
- Abstract要約: 深層学習最適化は、サドル点、局所小数点、ヘッセンおよび限られた計算資源の不調和などの固有の困難により、しばしば困難であると見なされる重み空間における高次元損失関数の最小化を伴う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning optimization involves minimizing a high-dimensional loss
function in the weight space which is often perceived as difficult due to its
inherent difficulties such as saddle points, local minima, ill-conditioning of
the Hessian and limited compute resources. In this paper, we provide a
comprehensive review of 12 standard optimization methods successfully used in
deep learning research and a theoretical assessment of the difficulties in
numerical optimization from the optimization literature.
- Abstract(参考訳): 深層学習最適化は、サドル点、局所小数点、ヘッセンおよび限られた計算資源の不調和などの固有の困難により、しばしば困難であると見なされる重み空間における高次元損失関数の最小化を伴う。
本稿では,深層学習における12の標準最適化手法の包括的レビューを行い,最適化文献から数値最適化の困難さを理論的に評価する。
関連論文リスト
- Learning rate adaptive stochastic gradient descent optimization methods: numerical simulations for deep learning methods for partial differential equations and convergence analyses [5.052293146674794]
標準降下(SGD)最適化法は、学習率が0に収束しない場合、アダムのような加速および適応SGD最適化法が収束しないことが知られている。
本研究では,経験的推定に基づいて学習率を調整するSGD最適化手法の学習速度適応手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-06-20T14:07:39Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate
Optimization Problems [0.0]
コスト関数の広範囲な評価が高価で、アクセス不能、あるいは禁止されるシナリオにおいて、グローバルな最適化のための新しいアルゴリズムを導入する。
この手法はLandscape-Sketch-and-Step (LSS)と呼ばれ、機械学習、レプリカ最適化、強化学習技術を組み合わせたものである。
論文 参考訳(メタデータ) (2023-09-14T01:53:45Z) - Effective Bilevel Optimization via Minimax Reformulation [23.5093932552053]
ミニマックス問題としてバイレベル最適化の再構成を提案する。
穏やかな条件下では、これらの2つの問題が等価であることを示す。
提案手法は, 計算コストを大幅に削減しつつ, 最先端の2段階法より優れる。
論文 参考訳(メタデータ) (2023-05-22T15:41:33Z) - Versatile Single-Loop Method for Gradient Estimator: First and Second
Order Optimality, and its Application to Federated Learning [45.78238792836363]
本稿では,SLEDGE (Single-Loop-E Gradient Estimator) という単一ループアルゴリズムを提案する。
既存の手法とは異なり、SLEDGEは、(ii)2階最適、(ii)PL領域における、(iii)少ないデータ以下の複雑さの利点を持つ。
論文 参考訳(メタデータ) (2022-09-01T11:05:26Z) - Fighting the curse of dimensionality: A machine learning approach to
finding global optima [77.34726150561087]
本稿では,構造最適化問題におけるグローバル最適化の方法を示す。
特定のコスト関数を利用することで、最適化手順が確立された場合と比較して、グローバルをベストに得るか、最悪の場合、優れた結果を得るかのどちらかを得る。
論文 参考訳(メタデータ) (2021-10-28T09:50:29Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Soft-Robust Algorithms for Batch Reinforcement Learning [36.78967245470449]
強化学習では、限られたデータによる堅牢な意思決定問題は、通常パーセンタイル基準によって計算される。
平均性能を最適化し無視することが難しいため、パーセンタイル基準は理論的ではないことを示す。
パーセンタイル基準を最適化するアルゴリズムを2つ提案し,解析する。
論文 参考訳(メタデータ) (2020-11-30T01:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。