Fugu-MT 論文翻訳(概要): CAdam: Confidence-Based Optimization for Online Learning

論文の概要: CAdam: Confidence-Based Optimization for Online Learning

arxiv url: http://arxiv.org/abs/2411.19647v1
Date: Fri, 29 Nov 2024 12:00:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:08.003888
Title: CAdam: Confidence-Based Optimization for Online Learning
Title（参考訳）: CAdam: 信頼に基づくオンライン学習の最適化
Authors: Shaowen Wang, Anan Liu, Jian Xiao, Huan Liu, Yuekui Yang, Cong Xu, Qianqian Pu, Suncong Zheng, Wei Zhang, Jian Li,
Abstract要約: 本稿では,更新を決定する前に,各パラメータ次元の運動量と勾配との整合性を評価する信頼度に基づく最適化手法であるCAdamを紹介する。合成と実世界の両方のデータセットによる実験は、CAdamが他のよく知られたシステムを上回っていることを示している。ライブレコメンデーションシステムにおける大規模A/Bテストでは、CAdamはAdamと比較してモデル性能を大幅に向上させる。
参考スコア（独自算出の注目度）: 35.84013976735154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern recommendation systems frequently employ online learning to dynamically update their models with freshly collected data. The most commonly used optimizer for updating neural networks in these contexts is the Adam optimizer, which integrates momentum ($m_t$) and adaptive learning rate ($v_t$). However, the volatile nature of online learning data, characterized by its frequent distribution shifts and presence of noises, poses significant challenges to Adam's standard optimization process: (1) Adam may use outdated momentum and the average of squared gradients, resulting in slower adaptation to distribution changes, and (2) Adam's performance is adversely affected by data noise. To mitigate these issues, we introduce CAdam, a confidence-based optimization strategy that assesses the consistence between the momentum and the gradient for each parameter dimension before deciding on updates. If momentum and gradient are in sync, CAdam proceeds with parameter updates according to Adam's original formulation; if not, it temporarily withholds updates and monitors potential shifts in data distribution in subsequent iterations. This method allows CAdam to distinguish between the true distributional shifts and mere noise, and adapt more quickly to new data distributions. Our experiments with both synthetic and real-world datasets demonstrate that CAdam surpasses other well-known optimizers, including the original Adam, in efficiency and noise robustness. Furthermore, in large-scale A/B testing within a live recommendation system, CAdam significantly enhances model performance compared to Adam, leading to substantial increases in the system's gross merchandise volume (GMV).
Abstract（参考訳）: 現代のレコメンデーションシステムは、しばしばオンライン学習を使用して、新しく収集されたデータでモデルを動的に更新する。これらのコンテキストでニューラルネットワークを更新するための最も一般的に使用されるオプティマイザは、運動量(m_t$)と適応学習率(v_t$)を統合するAdamオプティマイザである。しかし,その頻繁な分布シフトとノイズの存在を特徴とするオンライン学習データの揮発性特性は,Adamの標準最適化プロセスに重大な課題を生じている。(1)Adamは時代遅れの運動量と2乗勾配の平均を使用でき,分布変化への適応が遅くなり,(2)Adamのパフォーマンスがデータノイズに悪影響を及ぼす。これらの問題を緩和するために、更新を決定する前に各パラメータ次元の運動量と勾配の成分を評価する信頼度に基づく最適化戦略であるCAdamを導入する。モーメントと勾配が同期している場合、CAdamはAdamのオリジナルの定式化に従ってパラメータの更新を進める。この方法により、CAdamは真の分布シフトと単なるノイズを区別し、新しいデータ分布により迅速に適応することができる。合成と実世界の両方のデータセットによる実験により、CAdamは、Adamを含む他のよく知られた最適化を効率性とノイズの堅牢性で上回っていることが示された。さらに、ライブレコメンデーションシステムにおける大規模A/Bテストでは、Adamと比較してモデル性能が大幅に向上し、システム全体の商品量(GMV)が大幅に増加した。

関連論文リスト

Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文参考訳（メタデータ） (2024-12-22T18:01:08Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文参考訳（メタデータ） (2023-12-23T16:32:29Z)
StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。 StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-25T22:45:31Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
How Do Adam and Training Strategies Help BNNs Optimization? [50.22482900678071]
我々は、AdamがBNNの粗い損失面を扱うのに適しており、より高い一般化能力でより良い最適値に達することを示す。我々は、既存のAdamベースの最適化に基づいて、ImageNetデータセット上で70.5%のトップ1の精度を達成する簡単なトレーニングスキームを導出する。
論文参考訳（メタデータ） (2021-06-21T17:59:51Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
On the Trend-corrected Variant of Adaptive Stochastic Optimization Methods [30.084554989542475]
本稿では,適応的なステップサイズと勾配でパラメータを更新する際のトレンド情報を備えたAdam型手法の新しいフレームワークを提案する。我々は,従来のAdamおよびAMSGradメソッドを,複数の実世界のデータセットを持つ古典的モデル上で常に上回る,トレンドコンポーネントを追加することの重要性を実証的に示す。
論文参考訳（メタデータ） (2020-01-17T01:23:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。