論文の概要: A Method for Enhancing Generalization of Adam by Multiple Integrations
- arxiv url: http://arxiv.org/abs/2412.12473v1
- Date: Tue, 17 Dec 2024 02:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:54.479204
- Title: A Method for Enhancing Generalization of Adam by Multiple Integrations
- Title(参考訳): 複数積分によるアダムの一般化促進手法
- Authors: Long Jin, Han Nong, Liangming Chen, Zhenming Su,
- Abstract要約: 我々は、複数の積分項をアダムに統合する小説である多重積分アダム(MIAdam)を提案する。
この多重積分項は、最適化中に遭遇したシャープなミニマを効果的にフィルタする。
MIAdamはロバスト性やラベルノイズを向上するだけでなく、Adamの急速な収束特性も維持する。
- 参考スコア(独自算出の注目度): 13.819071588015822
- License:
- Abstract: The insufficient generalization of adaptive moment estimation (Adam) has hindered its broader application. Recent studies have shown that flat minima in loss landscapes are highly associated with improved generalization. Inspired by the filtering effect of integration operations on high-frequency signals, we propose multiple integral Adam (MIAdam), a novel optimizer that integrates a multiple integral term into Adam. This multiple integral term effectively filters out sharp minima encountered during optimization, guiding the optimizer towards flatter regions and thereby enhancing generalization capability. We provide a theoretical explanation for the improvement in generalization through the diffusion theory framework and analyze the impact of the multiple integral term on the optimizer's convergence. Experimental results demonstrate that MIAdam not only enhances generalization and robustness against label noise but also maintains the rapid convergence characteristic of Adam, outperforming Adam and its variants in state-of-the-art benchmarks.
- Abstract(参考訳): アダプティブモーメント推定(Adam)の不十分な一般化は、その適用を妨げている。
近年の研究では、損失景観における平坦なミニマは、一般化の改善と密接に関連していることが示されている。
高周波信号に対する積分演算のフィルタリング効果に着想を得て、複数の積分項をAdamに統合する新しい最適化器である多重積分Adam(MIAdam)を提案する。
この多重積分項は、最適化中に遭遇するシャープなミニマを効果的にフィルタし、最適化器をフラットな領域へ誘導し、一般化能力を向上する。
本稿では,拡散理論フレームワークによる一般化の向上の理論的説明と,多項積分項がオプティマイザの収束に与える影響を解析する。
実験結果から、MIAdamはラベルノイズに対する一般化と堅牢性を向上するだけでなく、Adamの急速な収束特性も維持し、最先端のベンチマークにおいてAdamとその変種より優れていることが示された。
関連論文リスト
- Continuous-Time Analysis of Adaptive Optimization and Normalization [5.954511401622424]
適応最適化アルゴリズム、特にAdamとその変種AdamWは、現代のディープラーニングの基本コンポーネントである。
この研究は、AdamとAdamWの連続的な時間的定式化を示し、トレーニングダイナミクスの抽出可能な解析を容易にする。
論文 参考訳(メタデータ) (2024-11-08T18:07:55Z) - On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515353]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,一般化を犠牲にすることなく,SGDの収束を高速化する新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Improving Generalization in Federated Learning by Seeking Flat Minima [23.937135834522145]
フェデレートされた設定で訓練されたモデルは、しばしば劣化したパフォーマンスに悩まされ、一般化に失敗する。
本研究では,損失の幾何レンズとヘッセン固有スペクトルを用いて,そのような挙動を考察する。
損失面のシャープさと一般化ギャップを接続する先行研究により,サーバ側のシャープネス・アウェア・最小化 (SAM) や適応バージョン (ASAM) をローカルにトレーニングすることで,一般化を大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-03-22T16:01:04Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。