Fugu-MT 論文翻訳(概要): How to Set $β_1, β_2$ in Adam: An Online Learning Perspective

論文の概要: How to Set $β_1, β_2$ in Adam: An Online Learning Perspective

arxiv url: http://arxiv.org/abs/2510.03478v1
Date: Fri, 03 Oct 2025 19:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.064385
Title: How to Set $β_1, β_2$ in Adam: An Online Learning Perspective
Title（参考訳）: Adam氏によるβ_1, β_2$の設定方法 - オンライン学習の視点
Authors: Quan Nguyen,
Abstract要約: 我々はAdamがFTRL(Follow-the-Regularized-Leader)の例であることを示す。我々は、$beta_$1 sqrtbeta$と$beta_$1 leq sqrtbeta$の両方に当てはまる新しい、より一般的な分析を導き出す。我々は、$beta_$1 = sqrtbeta$の設定が、難解な敵に対して最適であるが、公明でない敵に対して最適でないことを証明している。
参考スコア（独自算出の注目度）: 9.257465486905136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Adam is one of the most effective optimizer for training large-scale machine learning models, a theoretical understanding of how to optimally set its momentum factors, $\beta_1$ and $\beta_2$, remains largely incomplete. Prior works have shown that Adam can be seen as an instance of Follow-the-Regularized-Leader (FTRL), one of the most important class of algorithms in online learning. The prior analyses in these works required setting $\beta_1 = \sqrt{\beta_2}$, which does not cover the more practical cases with $\beta_1 \neq \sqrt{\beta_2}$. We derive novel, more general analyses that hold for both $\beta_1 \geq \sqrt{\beta_2}$ and $\beta_1 \leq \sqrt{\beta_2}$. In both cases, our results strictly generalize the existing bounds. Furthermore, we show that our bounds are tight in the worst case. We also prove that setting $\beta_1 = \sqrt{\beta_2}$ is optimal for an oblivious adversary, but sub-optimal for an non-oblivious adversary.
Abstract（参考訳）: Adam氏は、大規模な機械学習モデルをトレーニングするための最も効果的なオプティマイザの1つであるが、運動量係数を最適に設定する方法の理論的理解である$\beta_1$と$\beta_2$は、大半が不完全である。以前の研究では、オンライン学習において最も重要なアルゴリズムの1つであるFTRL(Follow-the-Regularized-Leader)の例と見なせることが示されている。これらの作業の以前の分析では、$\beta_1 = \sqrt{\beta_2}$を設定する必要があり、これはより実用的なケースを$\beta_1 \neq \sqrt{\beta_2}$でカバーしない。我々は、$\beta_1 \geq \sqrt{\beta_2}$と$\beta_1 \leq \sqrt{\beta_2}$の両方に当てはまる新しい、より一般的な分析を導き出す。どちらの場合も、我々の結果は既存の境界を厳密に一般化する。さらに,最悪の場合,境界が厳密であることも示している。また、$\beta_1 = \sqrt{\beta_2}$の設定は、難解な敵に対して最適であるが、非公開な敵に対して最適であることを示す。

関連論文リスト

Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-07-08T13:19:26Z)
Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback [60.610120215789976]
純粋な戦略ナッシュ均衡が存在するとき、$c$ は 0 となり、最適のインスタンス依存後悔境界となることを示す。また,本アルゴリズムは最終段階の収束性も享受し,ほぼ最適サンプルを用いて純粋な戦略ナッシュ均衡を同定することができる。
論文参考訳（メタデータ） (2025-02-24T20:20:06Z)
LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits [38.41164102066483]
本研究では,両逆境における上界を後悔するEmphBest-of-Both-Worlds (BoBW) アルゴリズムを開発した。提案アルゴリズムは限界条件下で$Oleft(log(T)1+beta2+betaTfrac12+betaright)$ regretを達成していることを示す。
論文参考訳（メタデータ） (2024-03-05T18:59:47Z)
Sharper Model-free Reinforcement Learning for Average-reward Markov Decision Processes [21.77276136591518]
我々はマルコフ決定過程(MDPs)のための証明可能なモデルフリー強化学習(RL)アルゴリズムを開発した。シミュレータ設定では,$widetildeO left(fracSAmathrmsp(h*)epsilon2+fracS2Amathrmsp(h*)epsilon2right)$サンプルを用いて,$epsilon$-optimal Policyを求める。
論文参考訳（メタデータ） (2023-06-28T17:43:19Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
Almost Optimal Proper Learning and Testing Polynomials [0.11421942894219898]
我々のアルゴリズムは$q_U=left(fracsepsilonright)fraclog betabeta+O(frac1beta)+ tilde Oleft(logfrac1epsilonright)log n,$ 以前のアルゴリズムは、少なくとも$s$で2次、$/epsilon$で1/epsilon$で線形である。
論文参考訳（メタデータ） (2022-02-07T14:15:20Z)
$Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文参考訳（メタデータ） (2020-06-16T13:01:33Z)
A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-21T19:19:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。