Fugu-MT 論文翻訳(概要): Both Asymptotic and Non-Asymptotic Convergence of Quasi-Hyperbolic Momentum using Increasing Batch Size

論文の概要: Both Asymptotic and Non-Asymptotic Convergence of Quasi-Hyperbolic Momentum using Increasing Batch Size

arxiv url: http://arxiv.org/abs/2506.23544v1
Date: Mon, 30 Jun 2025 06:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.939651
Title: Both Asymptotic and Non-Asymptotic Convergence of Quasi-Hyperbolic Momentum using Increasing Batch Size
Title（参考訳）: バッチサイズ増加による準双曲型モーメントの漸近的および非漸近的収束
Authors: Kento Imaizumi, Hideaki Iiduka,
Abstract要約: モメンタム法は、もともと凸関数を持つ決定論的設定において、勾配バッチ降下(SGD)に優越する目的で導入された。収束を達成するには、崩壊する学習率かバッチサイズの増加が必要であることを示す。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Momentum methods were originally introduced for their superiority to stochastic gradient descent (SGD) in deterministic settings with convex objective functions. However, despite their widespread application to deep neural networks -- a representative case of stochastic nonconvex optimization -- the theoretical justification for their effectiveness in such settings remains limited. Quasi-hyperbolic momentum (QHM) is an algorithm that generalizes various momentum methods and has been studied to better understand the class of momentum-based algorithms as a whole. In this paper, we provide both asymptotic and non-asymptotic convergence results for mini-batch QHM with an increasing batch size. We show that achieving asymptotic convergence requires either a decaying learning rate or an increasing batch size. Since a decaying learning rate adversely affects non-asymptotic convergence, we demonstrate that using mini-batch QHM with an increasing batch size -- without decaying the learning rate -- can be a more effective strategy. Our experiments show that even a finite increase in batch size can provide benefits for training neural networks.
Abstract（参考訳）: モメンタム法は、もともと、凸目的関数を持つ決定論的設定において、確率勾配降下(SGD)に優越する目的で導入された。しかし、ディープニューラルネットワーク -- 確率論的非凸最適化の代表的なケース -- に広く適用されているにもかかわらず、そのような設定におけるそれらの有効性に対する理論的正当化は依然として限られている。準双曲運動量(準双曲運動量、英: Quasi-hyperbolic momentum、QHM)は、様々な運動量法を一般化するアルゴリズムであり、運動量に基づくアルゴリズム全体のクラスをよりよく理解するために研究されている。本稿では,バッチサイズが増大するミニバッチQHMに対して,漸近的および非漸近的収束結果を提供する。漸近収束を達成するには,学習速度が低下するか,バッチサイズが大きくなるかのどちらかが必要であることを示す。崩壊する学習率が非漸近収束に悪影響を及ぼすので、学習率を低下させることなく、バッチサイズが増大するミニバッチQHMを使用することがより効果的な戦略であることを示す。実験の結果,バッチサイズが有限に大きくなることで,ニューラルネットワークのトレーニングにメリットが期待できることがわかった。

関連論文リスト

Structure and asymptotic preserving deep neural surrogates for uncertainty quantification in multiscale kinetic equations [5.181697052513637]
パラメータを持つ運動方程式の高次元性は不確実性定量化(UQ)の計算課題を提起する伝統的なモンテカルロサンプリング法は、空間の次元が大きくなるにつれて、緩やかな収束と高い分散に悩まされる。ニューラルネットワークの構造と保存に基づくサロゲートモデル(SAPNN)を導入する。 SAPNNは、肯定性、保存法則、エントロピー散逸、パラメータ制限など、重要な物理特性を満たすように設計されている。
論文参考訳（メタデータ） (2025-06-12T12:20:53Z)
Non-asymptotic convergence analysis of the stochastic gradient Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with applications to training of ReLU neural networks [7.170021086161168]
我々は、勾配ハミルトニアンモンテカルロのWasserstein-1 と Wasserstein-2 距離の目標測度への収束の非漸近解析を提供する。本研究の主な成果を説明するために、定量推定に関する数値実験と、金融と人工知能に関連するReLUニューラルネットワークに関わるいくつかの問題について考察する。
論文参考訳（メタデータ） (2024-09-25T17:21:09Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Accelerated Convergence of Stochastic Heavy Ball Method under Anisotropic Gradient Noise [16.12834917344859]
重球運動量法は加速収束を提供し、大きなバッチ設定でうまく機能するはずだと広く推測されている。重球運動量は, SGDの偏差項の加速収束率を$tildemathcalO(sqrtkappa)$で達成し, ほぼ最適収束率を達成できることを示した。つまり、重い球運動量を持つSGDは、分散機械学習やフェデレーション学習のような大規模なバッチ設定で有用である。
論文参考訳（メタデータ） (2023-12-22T09:58:39Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは特に広まりました本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2022-09-08T10:46:05Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function [3.5044892799305956]
Lovas et alで導入された未調整Langevinアルゴリズム(TUSLA)の非漸近解析を行う。特に、Wassersteinstein-1-2におけるTUSLAアルゴリズムの非漸近誤差境界を確立する。 TUSLAアルゴリズムは最適解に急速に収束することを示す。
論文参考訳（メタデータ） (2021-07-19T07:13:02Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
Learning Rates as a Function of Batch Size: A Random Matrix Theory Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。 VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文参考訳（メタデータ） (2020-06-16T11:55:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。