Fugu-MT 論文翻訳(概要): Faster Convergence of Riemannian Stochastic Gradient Descent with Increasing Batch Size

論文の概要: Faster Convergence of Riemannian Stochastic Gradient Descent with Increasing Batch Size

arxiv url: http://arxiv.org/abs/2501.18164v1
Date: Thu, 30 Jan 2025 06:23:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.066869
Title: Faster Convergence of Riemannian Stochastic Gradient Descent with Increasing Batch Size
Title（参考訳）: バッチサイズ増加を伴うリーマン確率勾配の高速収束
Authors: Kanata Oowada, Hideaki Iiduka,
Abstract要約: バッチサイズの増加は、一定のバッチサイズを使用するよりも、RSGDの高速化につながる。主成分分析と低ランク行列問題の実験により, 成長バッチサイズや指数成長バッチサイズを用いることで, 一定のバッチサイズよりも優れた性能が得られることを確認した。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many models used in machine learning have become so large that even computer computation of the full gradient of the loss function is impractical. This has made it necessary to efficiently train models using limited available information, such as batch size and learning rate. We have theoretically analyzed the use of Riemannian stochastic gradient descent (RSGD) and found that using an increasing batch size leads to faster RSGD convergence than using a constant batch size not only with a constant learning rate but also with a decaying learning rate, such as cosine annealing decay and polynomial decay. In particular, RSGD has a better convergence rate $O(\frac{1}{\sqrt{T}})$ than the existing rate $O(\frac{\sqrt{\log T}}{\sqrt[4]{T}})$ with a diminishing learning rate, where $T$ is the number of iterations. The results of experiments on principal component analysis and low-rank matrix completion problems confirmed that, except for the MovieLens dataset and a constant learning rate, using a polynomial growth batch size or an exponential growth batch size results in better performance than using a constant batch size.
Abstract（参考訳）: 機械学習で使用される多くのモデルが非常に大きくなり、損失関数の完全な勾配のコンピュータ計算でさえ実用的ではない。これにより、バッチサイズや学習率といった限られた情報を使ってモデルを効率的にトレーニングする必要が生じた。理論的には,Riemann的確率勾配勾配勾配 (RSGD) の使用法を解析した結果,バッチサイズの増加は,一定の学習速度だけでなく,コサインアニーリング減衰や多項式崩壊などの減衰学習率も使用した場合よりも,RSGDの収束率の向上につながることがわかった。特に、RSGD の収束率 $O(\frac{1}{\sqrt{T}})$ は、既存の速度 $O(\frac{\sqrt{\log T}}{\sqrt[4]{T}})$ よりも優れており、ここでは、$T$ は反復数である。主成分分析と低ランク行列補完問題の実験結果から,MovieLensデータセットと定常学習率を除いて,多項式成長バッチサイズや指数成長バッチサイズを用いることで,定数バッチサイズよりも優れた性能が得られることを確認した。

関連論文リスト

The Implicit Bias of Steepest Descent with Mini-batch Stochastic Gradient [32.97211471008323]
本研究では, バッチサイズ, 運動量, 分散の低減が, 最大張力挙動と収束率の制限をいかに形成するかを検討した。運動量なしでは、収束は大きなバッチでのみ発生し、バッチ依存のマージンギャップを生じるが、フルバッチ収束速度は得られないことを示す。
論文参考訳（メタデータ） (2026-02-12T04:25:38Z)
Closing the Approximation Gap of Partial AUC Optimization: A Tale of Two Formulations [121.39938773554523]
ROC曲線の下の領域(AUC)は、クラス不均衡と決定制約の両方を持つ実世界のシナリオにおける重要な評価指標である。 PAUC最適化の近似ギャップを埋めるために,2つの簡単なインスタンス単位のミニマックス修正を提案する。得られたアルゴリズムは、サンプルサイズと典型的な一方方向と双方向のPAUCに対して$O(-2/3)$の収束率の線形パーイテレーション計算複雑性を享受する。
論文参考訳（メタデータ） (2025-12-01T02:52:33Z)
VAMO: Efficient Large-Scale Nonconvex Optimization via Adaptive Zeroth Order Variance Reduction [3.130722489512822]
VAMOは、ZOGスタイルのフレームワークの下で、FOミニバッチ勾配とZO有限差分プローブを組み合わせる。 VAMOはFO法やZO法よりも優れており、効率を向上させるためにより高速で柔軟な選択肢を提供する。
論文参考訳（メタデータ） (2025-05-20T05:31:15Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文参考訳（メタデータ） (2024-06-04T09:44:49Z)
Iteration and Stochastic First-order Oracle Complexities of Stochastic Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文参考訳（メタデータ） (2024-02-23T14:24:45Z)
Relationship between Batch Size and Number of Steps Needed for Nonconvex Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文参考訳（メタデータ） (2023-07-25T21:59:17Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文参考訳（メタデータ） (2022-08-21T06:11:23Z)
Trajectory of Mini-Batch Momentum: Batch Size Saturation and Convergence in High Dimensions [2.575030923243061]
SGD+M の力学は次元が増加するにつれて決定論的離散ボルテラ方程式に収束することを示す。 ICRよりも小さなバッチサイズの場合、SGD+Mは単一のバッチSGDレートの倍のスケールを持つ。
論文参考訳（メタデータ） (2022-06-02T13:03:14Z)
Faster One-Sample Stochastic Conditional Gradient Method for Composite Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文参考訳（メタデータ） (2022-02-26T19:10:48Z)
Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文参考訳（メタデータ） (2021-10-20T02:25:25Z)
Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。 DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文参考訳（メタデータ） (2021-07-06T21:59:49Z)
Gradient Boosted Binary Histogram Ensemble for Large-scale Regression [60.16351608335641]
本研究では,2値ヒストグラム分割とアンサンブル学習に基づくテキストグラディエント2値ヒストグラムアンサンブル(GBBHE)と呼ばれる大規模回帰問題に対する勾配向上アルゴリズムを提案する。実験では, 勾配向上回帰木 (GBRT) などの他の最先端アルゴリズムと比較して, GBBHEアルゴリズムは大規模データセット上での実行時間が少なく, 有望な性能を示す。
論文参考訳（メタデータ） (2021-06-03T17:05:40Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
On the Almost Sure Convergence of Stochastic Gradient Descent in Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文参考訳（メタデータ） (2020-06-19T14:11:26Z)
Convergence of Meta-Learning with Task-Specific Adaptation over Partial Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文参考訳（メタデータ） (2020-06-16T19:57:48Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。