論文の概要: Promoting Exploration in Memory-Augmented Adam using Critical Momenta
- arxiv url: http://arxiv.org/abs/2307.09638v1
- Date: Tue, 18 Jul 2023 20:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:04:03.518806
- Title: Promoting Exploration in Memory-Augmented Adam using Critical Momenta
- Title(参考訳): 臨界モーメントを用いた記憶提示アダムの探索促進
- Authors: Pranshu Malviya, Gon\c{c}alo Mordido, Aristide Baratin, Reza
Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu,
Sarath Chandar
- Abstract要約: 本稿では,フラットなミニマへの探索を促進するメモリ拡張版Adamを提案する。
我々は,標準的な教師付き言語モデリングと画像分類タスクにおいて,Adamのいくつかの変種の性能向上を実証的に示す。
- 参考スコア(独自算出の注目度): 33.71298144283319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient-based optimizers, particularly Adam, have left their mark
in training large-scale deep learning models. The strength of such optimizers
is that they exhibit fast convergence while being more robust to hyperparameter
choice. However, they often generalize worse than non-adaptive methods. Recent
studies have tied this performance gap to flat minima selection: adaptive
methods tend to find solutions in sharper basins of the loss landscape, which
in turn hurts generalization. To overcome this issue, we propose a new
memory-augmented version of Adam that promotes exploration towards flatter
minima by using a buffer of critical momentum terms during training.
Intuitively, the use of the buffer makes the optimizer overshoot outside the
basin of attraction if it is not wide enough. We empirically show that our
method improves the performance of several variants of Adam on standard
supervised language modelling and image classification tasks.
- Abstract(参考訳): 適応勾配に基づくオプティマイザ、特にadamは、大規模ディープラーニングモデルのトレーニングにおいて、その特徴を残している。
このようなオプティマイザの強みは、ハイパーパラメータ選択に対してより堅牢でありながら、高速収束を示すことである。
しかし、しばしば非適応的な方法よりも悪質なものを一般化する。
最近の研究では、この性能の差は平坦な極小選択に結びついている:適応的手法は損失景観のより鋭い盆地で解を見つける傾向があり、それが一般化を損なう。
この問題を解決するために,トレーニング中に臨界運動量項のバッファを用いてフラットなミニマへの探索を促進するAdamの新しいメモリ拡張版を提案する。
直感的には、バッファの使用は、十分な広さがなければアトラクションの流域の外で最適化器をオーバーシュートさせる。
我々は,標準的な教師付き言語モデリングと画像分類タスクにおいて,Adamのいくつかの変種の性能向上を実証的に示す。
関連論文リスト
- Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Scaling Laws For Deep Learning Based Image Reconstruction [26.808569077500128]
トレーニングセットのサイズをスケールアップすることで、大きなパフォーマンス向上が期待できるかどうかを調査する。
初期の急激なパワーロースケーリングは、適度なトレーニングセットサイズですでに大幅に遅くなっています。
我々は、線形推定器の性能を早期に停止勾配降下によって解析的に評価した。
論文 参考訳(メタデータ) (2022-09-27T14:44:57Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z) - Rethinking Data Augmentation for Image Super-resolution: A Comprehensive
Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。
我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。
提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-04-01T13:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。