論文の概要: SANIA: Polyak-type Optimization Framework Leads to Scale Invariant
Stochastic Algorithms
- arxiv url: http://arxiv.org/abs/2312.17369v1
- Date: Thu, 28 Dec 2023 21:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 14:28:38.520828
- Title: SANIA: Polyak-type Optimization Framework Leads to Scale Invariant
Stochastic Algorithms
- Title(参考訳): SANIA: Polyak型最適化フレームワークは不変確率アルゴリズムをスケールする
- Authors: Farshed Abdukhakimov, Chulu Xiang, Dmitry Kamzolov, Robert Gower,
Martin Tak\'a\v{c}
- Abstract要約: Adam、AdaGrad、AdaHessianといったテクニックは、対象関数の曲率を組み込むことで、探索が影響を受けるプリコンディショナーを利用する。
本稿では,これらの課題に対処するためにSANIAを提案する。
- 参考スコア(独自算出の注目度): 1.21748738176366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive optimization methods are widely recognized as among the most popular
approaches for training Deep Neural Networks (DNNs). Techniques such as Adam,
AdaGrad, and AdaHessian utilize a preconditioner that modifies the search
direction by incorporating information about the curvature of the objective
function. However, despite their adaptive characteristics, these methods still
require manual fine-tuning of the step-size. This, in turn, impacts the time
required to solve a particular problem. This paper presents an optimization
framework named SANIA to tackle these challenges. Beyond eliminating the need
for manual step-size hyperparameter settings, SANIA incorporates techniques to
address poorly scaled or ill-conditioned problems. We also explore several
preconditioning methods, including Hutchinson's method, which approximates the
Hessian diagonal of the loss function. We conclude with an extensive empirical
examination of the proposed techniques across classification tasks, covering
both convex and non-convex contexts.
- Abstract(参考訳): 適応最適化手法はディープニューラルネットワーク(DNN)を訓練する最も一般的な手法として広く認識されている。
Adam、AdaGrad、AdaHessianといった技術は、対象関数の曲率に関する情報を組み込んで探索方向を変更するプリコンディショナーを使用している。
しかし, 適応特性にもかかわらず, ステップサイズを手作業で微調整する必要がある。
これは、特定の問題を解決するのに必要な時間に影響を与える。
本稿では,これらの課題に対処するため,SANIAという最適化フレームワークを提案する。
手動のステップサイズハイパーパラメータ設定の必要をなくすだけでなく、SANIAはスケールの悪い問題や条件の悪い問題に対処するテクニックを取り入れている。
損失関数のヘッセン対角線を近似するハッチンソン法など,いくつかの事前条件付き手法についても検討する。
結論として,提案手法を分類タスクに適用し,凸と非凸の両方の文脈をカバーする実験を行った。
関連論文リスト
- Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Stochastic Gradient Descent with Preconditioned Polyak Step-size [1.3300175008796402]
Gradient Descent with Polyak Step-size (SPS)は、データセットの学習率を微調整する必要性を軽減する更新ルールを提供する方法である。
本稿では,Hutchinson'sやAda'sなどのプレコンディショニング技術を用いたSPSの拡張を提案する。
論文 参考訳(メタデータ) (2023-10-03T14:36:05Z) - Self-adaptive algorithms for quasiconvex programming and applications to
machine learning [0.0]
凸線探索技術や,軽微な仮定の下での汎用的アプローチを含まない,自己適応的なステップサイズ戦略を提案する。
提案手法は,いくつかの計算例から予備的な結果によって検証される。
大規模問題に対する提案手法の有効性を実証するため,機械学習実験に適用した。
論文 参考訳(メタデータ) (2022-12-13T05:30:29Z) - An Adaptive Incremental Gradient Method With Support for Non-Euclidean
Norms [19.41328109094503]
そこで本研究では,SAGAアルゴリズムの適応型を新たにいくつか提案し,解析する。
一般的な設定の下で収束保証を確立する。
我々は、非ユークリッドノルムをサポートするためにSAGAの分析を改善した。
論文 参考訳(メタデータ) (2022-04-28T09:43:07Z) - Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order
Information [37.70729542263343]
本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。
我々の手法は方向とステップサイズを動的に適応させる。
我々の手法は退屈なチューニング率チューニングを必要としない。
論文 参考訳(メタデータ) (2021-09-11T06:39:50Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - AI-SARAH: Adaptive and Implicit Stochastic Recursive Gradient Methods [7.486132958737807]
適応性に対する暗黙的アプローチによる適応分散低減手法を提案する。
有限サム最小化問題に対する収束保証を提供し,局所幾何が許せばサラよりも高速に収束できることを示す。
このアルゴリズムはステップサイズを暗黙的に計算し、関数の局所リプシッツ滑らかさを効率的に推定する。
論文 参考訳(メタデータ) (2021-02-19T01:17:15Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。