Fugu-MT 論文翻訳(概要): On the Trend-corrected Variant of Adaptive Stochastic Optimization Methods

論文の概要: On the Trend-corrected Variant of Adaptive Stochastic Optimization Methods

arxiv url: http://arxiv.org/abs/2001.06130v2
Date: Wed, 16 Dec 2020 01:39:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-10 09:49:18.503531
Title: On the Trend-corrected Variant of Adaptive Stochastic Optimization Methods
Title（参考訳）: 適応確率最適化手法のトレンド補正バリアントについて
Authors: Bingxin Zhou, Xuebin Zheng, Junbin Gao
Abstract要約: 本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。
参考スコア（独自算出の注目度）: 30.084554989542475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adam-type optimizers, as a class of adaptive moment estimation methods with the exponential moving average scheme, have been successfully used in many applications of deep learning. Such methods are appealing due to the capability on large-scale sparse datasets with high computational efficiency. In this paper, we present a new framework for Adam-type methods with the trend information when updating the parameters with the adaptive step size and gradients. The additional terms in the algorithm promise an efficient movement on the complex cost surface, and thus the loss would converge more rapidly. We show empirically the importance of adding the trend component, where our framework outperforms the conventional Adam and AMSGrad methods constantly on the classical models with several real-world datasets.
Abstract（参考訳）: 指数的移動平均スキームを用いた適応モーメント推定法のクラスであるadam型オプティマイザは、ディープラーニングの多くの応用でうまく使われている。このような方法は、計算効率の高い大規模スパースデータセットの能力により魅力的である。本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。アルゴリズムにおける追加用語は、複雑なコスト面上の効率的な動きを約束するので、損失はより早く収束する。我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。

関連論文リスト

Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。 LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文参考訳（メタデータ） (2025-02-11T11:48:04Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文参考訳（メタデータ） (2024-09-17T19:59:57Z)
Adaptive debiased SGD in high-dimensional GLMs with streaming data [4.704144189806667]
我々は、高次元一般化線形モデルにおいて、オンライン推論に新しいアプローチを導入する。本手法はシングルパスモードで動作し,時間と空間の複雑さを著しく低減する。提案手法は,ADL (Approximated Debiased Lasso) と呼ばれ,有界な個人確率条件の必要性を緩和するだけでなく,数値性能も著しく向上することを示した。
論文参考訳（メタデータ） (2024-05-28T15:36:48Z)
StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。 StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-25T22:45:31Z)
Learning to Refit for Convex Learning Problems [11.464758257681197]
ニューラルネットワークを用いて、異なるトレーニングセットに対して最適化されたモデルパラメータを推定するフレームワークを提案する。我々は、凸問題を近似するためにニューラルネットワークのパワーを厳格に特徴づける。
論文参考訳（メタデータ） (2021-11-24T15:28:50Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)
Adaptive Stochastic Optimization [1.7945141391585486]
適応最適化手法は、大規模システムの訓練に際し、計算量を大幅に削減する可能性がある。勾配法に基づく現代的なアプローチは、それぞれのアプリケーションに調整が必要な所定のパラメータ値を採用するという意味では適応的ではない。
論文参考訳（メタデータ） (2020-01-18T16:30:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。