論文の概要: Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms
- arxiv url: http://arxiv.org/abs/2403.00574v1
- Date: Fri, 1 Mar 2024 14:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:06:55.936065
- Title: Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms
- Title(参考訳): ディープラーニングのための単一モデルビューを超えて:確率最適化アルゴリズムの最適化と一般化可能性
- Authors: Toki Tahmid Inan, Mingrui Liu, Amarda Shehu
- Abstract要約: 本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
- 参考スコア(独自算出の注目度): 13.134564730161983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite an extensive body of literature on deep learning optimization, our
current understanding of what makes an optimization algorithm effective is
fragmented. In particular, we do not understand well whether enhanced
optimization translates to improved generalizability. Current research
overlooks the inherent stochastic nature of stochastic gradient descent (SGD)
and its variants, resulting in a lack of comprehensive benchmarking and insight
into their statistical performance. This paper aims to address this gap by
adopting a novel approach. Rather than solely evaluating the endpoint of
individual optimization trajectories, we draw from an ensemble of trajectories
to estimate the stationary distribution of stochastic optimizers. Our
investigation encompasses a wide array of techniques, including SGD and its
variants, flat-minima optimizers, and new algorithms we propose under the Basin
Hopping framework. Through our evaluation, which encompasses synthetic
functions with known minima and real-world problems in computer vision and
natural language processing, we emphasize fair benchmarking under a statistical
framework, comparing stationary distributions and establishing statistical
significance. Our study uncovers several key findings regarding the
relationship between training loss and hold-out accuracy, as well as the
comparable performance of SGD, noise-enabled variants, and novel optimizers
utilizing the BH framework. Notably, these algorithms demonstrate performance
on par with flat-minima optimizers like SAM, albeit with half the gradient
evaluations. We anticipate that our work will catalyze further exploration in
deep learning optimization, encouraging a shift away from single-model
approaches towards methodologies that acknowledge and leverage the stochastic
nature of optimizers.
- Abstract(参考訳): ディープラーニングの最適化に関する広範な文献にもかかわらず、最適化アルゴリズムの有効性に関する現在の理解は断片化されている。
特に,拡張最適化が一般化可能性の向上に寄与するか否かはよく分かっていない。
現在の研究では、確率勾配降下(SGD)とその変種の本質的な確率的性質を見落としており、総合的なベンチマークや統計的性能に関する洞察が欠如している。
本稿では,新しいアプローチを採用することで,このギャップに対処することを目的とする。
個別最適化トラジェクタのエンドポイントを単に評価するのではなく、確率最適化器の定常分布を推定するために軌道のアンサンブルから引き出す。
本研究は,sgdとその変種,フラットミニマオプティマイザ,およびベースラインホッピングフレームワークで提案する新しいアルゴリズムを含む,幅広い手法を包含する。
コンピュータビジョンと自然言語処理において, 合成関数と既知のミニマおよび実世界の問題を包含する評価を通じて, 定常分布の比較と統計的意義の確立という, 統計的枠組みの下での公正なベンチマークを強調する。
本研究は, トレーニング損失とホールドアウト精度の関係, SGD, ノイズ対応変種, およびBHフレームワークを利用した新規オプティマイザについて検討した。
注目すべきは、これらのアルゴリズムがSAMのような平らな最小値オプティマイザと同等の性能を示すことだ。
我々の研究は、ディープラーニング最適化のさらなる探求を触媒し、オプティマイザの確率的性質を認識し、活用する方法論への単一モデルアプローチから移行を促すことを期待する。
関連論文リスト
- Parameter-Free Algorithms for Performative Regret Minimization under
Decision-Dependent Distributions [15.396561118589577]
パフォーマンスリスク最小化は、決定依存分布の下での最適化の定式化である。
我々のアルゴリズムは、既存のリプシッツ定数分布パラメータに基づく手法を大幅に改善する。
提案手法は,既存手法と他のブラックボックス楽観的最適化手法に比較して,アルゴリズムの数値的優位性を示す実験結果を提供する。
論文 参考訳(メタデータ) (2024-02-23T08:36:28Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - PAO: A general particle swarm algorithm with exact dynamics and
closed-form transition densities [0.0]
粒子群最適化(PSO)アプローチは多くの応用分野において非常に効果的であることが証明されている。
本研究では, PSOアルゴリズムの高一般性, 解釈可能な変種であるパーティクル・アトラクター・アルゴリズム (PAO) を提案する。
論文 参考訳(メタデータ) (2023-04-28T16:19:27Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - B\'ezier Flow: a Surface-wise Gradient Descent Method for
Multi-objective Optimization [12.487037582320804]
確率近似学習(PAC)における最適化アルゴリズムの安定性を向上する。
勾配勾配勾配に基づく単目的最適化アルゴリズムから導かれる多目的最適化アルゴリズムはPAC安定であることを示す。
論文 参考訳(メタデータ) (2022-05-23T07:47:58Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Optimum-statistical Collaboration Towards General and Efficient
Black-box Optimization [23.359363844344408]
最適化過程において,最適化誤差フラックスと統計的誤差フラックスとの相互作用を管理するアルゴリズムフレームワークを導入する。
我々のフレームワークとその分析は、異なる局所的滑らかさの仮定を満たす関数と分割の大きなファミリーに適用できる。
理論的には、局所的滑らかさの仮定が異なる条件下で、アルゴリズムが速度-最適後悔境界を楽しむことを証明する。
論文 参考訳(メタデータ) (2021-06-17T02:37:39Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Learning to be Global Optimizer [28.88646928299302]
いくつかのベンチマーク関数に対して最適なネットワークとエスケープ能力アルゴリズムを学習する。
学習したアルゴリズムは、よく知られた古典最適化アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-10T03:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。