論文の概要: Promoting Exploration in Memory-Augmented Adam using Critical Momenta
- arxiv url: http://arxiv.org/abs/2307.09638v2
- Date: Mon, 17 Jun 2024 19:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:13:54.209088
- Title: Promoting Exploration in Memory-Augmented Adam using Critical Momenta
- Title(参考訳): 臨界モメンタを用いた記憶強化アダムの探索促進
- Authors: Pranshu Malviya, Gonçalo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar,
- Abstract要約: 我々は、フラットなミニマへの探索を奨励するAdamのメモリ拡張版を提案する。
このバッファは、モデルを狭いミニマを越えてオーバーシュートし、探索を促進する。
我々は、画像NetとCIFAR10/100の画像分類、Penn Treebankの言語モデリング、TinyImageNetと5-datasetのオンライン学習タスクにおいて、モデル性能を向上させることを実証的に実証した。
- 参考スコア(独自算出の注目度): 33.62231951499847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient-based optimizers, notably Adam, have left their mark in training large-scale deep learning models, offering fast convergence and robustness to hyperparameter settings. However, they often struggle with generalization, attributed to their tendency to converge to sharp minima in the loss landscape. To address this, we propose a new memory-augmented version of Adam that encourages exploration towards flatter minima by incorporating a buffer of critical momentum terms during training. This buffer prompts the optimizer to overshoot beyond narrow minima, promoting exploration. Through comprehensive analysis in simple settings, we illustrate the efficacy of our approach in increasing exploration and bias towards flatter minima. We empirically demonstrate that it can improve model performance for image classification on ImageNet and CIFAR10/100, language modelling on Penn Treebank, and online learning tasks on TinyImageNet and 5-dataset. Our code is available at \url{https://github.com/chandar-lab/CMOptimizer}.
- Abstract(参考訳): 適応的な勾配に基づくオプティマイザ、特にAdamは、大規模なディープラーニングモデルのトレーニングにおいて、ハイパーパラメータ設定に対する高速な収束と堅牢性を提供し、その地位を残している。
しかし、彼らはしばしば一般化に苦しむが、それはロスランドスケープの鋭いミニマに収束する傾向があるためである。
これを解決するために,トレーニング中に臨界運動量項のバッファを組み込むことで,フラットなミニマへの探索を促進するAdamの新しいメモリ拡張版を提案する。
このバッファにより、オプティマイザは狭いミニマを越えてオーバーシュートし、探索を促進する。
簡単な設定で包括的解析を行うことで、より平坦なミニマへの探索と偏見を高めるためのアプローチの有効性を示す。
我々は、画像NetとCIFAR10/100の画像分類、Penn Treebankの言語モデリング、TinyImageNetと5-datasetのオンライン学習タスクにおいて、モデル性能を向上させることを実証的に実証した。
私たちのコードは \url{https://github.com/chandar-lab/CMOptimizer} で利用可能です。
関連論文リスト
- Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Scaling Laws For Deep Learning Based Image Reconstruction [26.808569077500128]
トレーニングセットのサイズをスケールアップすることで、大きなパフォーマンス向上が期待できるかどうかを調査する。
初期の急激なパワーロースケーリングは、適度なトレーニングセットサイズですでに大幅に遅くなっています。
我々は、線形推定器の性能を早期に停止勾配降下によって解析的に評価した。
論文 参考訳(メタデータ) (2022-09-27T14:44:57Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z) - Rethinking Data Augmentation for Image Super-resolution: A Comprehensive
Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。
我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。
提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-04-01T13:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。