論文の概要: Exploring Landscapes for Better Minima along Valleys
- arxiv url: http://arxiv.org/abs/2510.27153v1
- Date: Fri, 31 Oct 2025 03:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.971002
- Title: Exploring Landscapes for Better Minima along Valleys
- Title(参考訳): 谷沿いのミニマのための景観探査
- Authors: Tong Zhao, Jiacheng Li, Yuanchang Zhou, Guangming Tan, Weile Jia,
- Abstract要約: 勾配に基づく一般化のための適応子"E"を提案する。
適応型 Lamb, ALTO は, 様々な大規模バッチトレーニングタスクにおいて, 現在の最先端技術のテスト精度(一般化)を平均2.5%向上させることを示した。
- 参考スコア(独自算出の注目度): 12.577989304074288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding lower and better-generalizing minima is crucial for deep learning. However, most existing optimizers stop searching the parameter space once they reach a local minimum. Given the complex geometric properties of the loss landscape, it is difficult to guarantee that such a point is the lowest or provides the best generalization. To address this, we propose an adaptor "E" for gradient-based optimizers. The adapted optimizer tends to continue exploring along landscape valleys (areas with low and nearly identical losses) in order to search for potentially better local minima even after reaching a local minimum. This approach increases the likelihood of finding a lower and flatter local minimum, which is often associated with better generalization. We also provide a proof of convergence for the adapted optimizers in both convex and non-convex scenarios for completeness. Finally, we demonstrate their effectiveness in an important but notoriously difficult training scenario, large-batch training, where Lamb is the benchmark optimizer. Our testing results show that the adapted Lamb, ALTO, increases the test accuracy (generalization) of the current state-of-the-art optimizer by an average of 2.5% across a variety of large-batch training tasks. This work potentially opens a new research direction in the design of optimization algorithms.
- Abstract(参考訳): より低く、より一般化されたミニマを見つけることは、ディープラーニングにとって不可欠である。
しかし、ほとんどの既存のオプティマイザは、パラメータ空間が局所的な最小値に達すると検索をやめる。
ロスランドスケープの複雑な幾何学的性質を考えると、そのような点が最低であることや最高の一般化を提供することを保証することは困難である。
そこで本研究では,勾配に基づく最適化のための適応子"E"を提案する。
適応されたオプティマイザは、地域最小値に達した後も、より優れた地域最小値を探すために、地形の谷に沿って探索を続ける傾向にある(低損失とほぼ同一の損失がある)。
このアプローチは、しばしばより良い一般化と関連づけられる、より低く平坦な局所最小値を見つける可能性を高める。
また、完全性に対する凸および非凸のシナリオにおける適応最適化器の収束性の証明も提供する。
最後に、Lambがベンチマークオプティマイザである大規模バッチトレーニングにおいて、重要なが非常に難しいトレーニングシナリオにおいて、それらの効果を実証する。
実験の結果, 適応型Lamb, ALTOは, 様々な大規模バッチトレーニングタスクに対して平均2.5%の精度で, 現在の最先端オプティマイザのテスト精度(一般化)を向上することがわかった。
この研究は最適化アルゴリズムの設計における新たな研究の方向性を開く可能性がある。
関連論文リスト
- Zeroth-Order Optimization Finds Flat Minima [51.41529512093436]
標準二点推定器によるゼロ階最適化は、ヘッセンの小さなトレースを持つ解を好むことを示す。
さらに、凸関数と十分に滑らかな関数に対する近似平坦なミニマに対して、ゼロ階最適化の収束率を提供する。
論文 参考訳(メタデータ) (2025-06-05T17:59:09Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Using Differential Evolution to avoid local minima in Variational
Quantum Algorithms [0.0]
変分量子アルゴリズム(VQA)は、量子コンピューティングを利用する最も有望なNISQ時代のアルゴリズムの一つである。
本研究の目的は,局所的ミニマ問題や大理石高原問題の影響を回避・低減できる代替最適化手法を検討することである。
論文 参考訳(メタデータ) (2023-03-21T20:31:06Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Efficiently Escaping Saddle Points in Bilevel Optimization [48.925688192913]
バイレベル最適化は、機械学習における問題の1つだ。
双レベル最適化の最近の進歩は、最初の基本的非適応的多段階解析に収束する。
論文 参考訳(メタデータ) (2022-02-08T07:10:06Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Why Do Local Methods Solve Nonconvex Problems? [54.284687261929115]
非使用最適化は、現代の機械学習においてユビキタスである。
機械学習問題の場合、厳格に定式化します。
我々はこの現象の統一的な説明を仮定する。
論文 参考訳(メタデータ) (2021-03-24T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。