論文の概要: Adaptive Optimization with Examplewise Gradients
- arxiv url: http://arxiv.org/abs/2112.00174v1
- Date: Tue, 30 Nov 2021 23:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:03:11.338631
- Title: Adaptive Optimization with Examplewise Gradients
- Title(参考訳): 例順勾配を用いた適応最適化
- Authors: Julius Kunze, James Townsend, David Barber
- Abstract要約: 本稿では,機械学習のための勾配に基づく最適化手法の設計に対して,より汎用的なアプローチを提案する。
この新しいフレームワークでは、イテレーションは単一の見積もりではなく、パラメータごとの見積もりのバッチへのアクセスを前提としています。
これは、典型的な機械学習のセットアップで実際に利用できる情報を反映している。
- 参考スコア(独自算出の注目度): 23.504973357538418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new, more general approach to the design of stochastic
gradient-based optimization methods for machine learning. In this new
framework, optimizers assume access to a batch of gradient estimates per
iteration, rather than a single estimate. This better reflects the information
that is actually available in typical machine learning setups. To demonstrate
the usefulness of this generalized approach, we develop Eve, an adaptation of
the Adam optimizer which uses examplewise gradients to obtain more accurate
second-moment estimates. We provide preliminary experiments, without
hyperparameter tuning, which show that the new optimizer slightly outperforms
Adam on a small scale benchmark and performs the same or worse on larger scale
benchmarks. Further work is needed to refine the algorithm and tune
hyperparameters.
- Abstract(参考訳): 本稿では,機械学習のための確率勾配に基づく最適化手法の設計に対して,より汎用的なアプローチを提案する。
この新しいフレームワークでは、オプティマイザは単一の見積もりではなく、イテレーション毎の勾配推定のバッチへのアクセスを想定している。
これは、典型的な機械学習のセットアップで実際に利用できる情報を反映している。
この一般化されたアプローチの有用性を示すために、より正確な第二モーメント推定を得るために、例的に勾配を用いたアダム最適化器の適応であるEveを開発した。
我々は、ハイパーパラメータチューニングを使わずに予備実験を行い、新しいオプティマイザが小さなベンチマークでAdamをわずかに上回り、より大規模なベンチマークで同じか悪い結果を示す。
アルゴリズムを洗練し、ハイパーパラメータをチューニングするために、さらなる作業が必要である。
関連論文リスト
- Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:16:12Z) - WarpAdam: A new Adam optimizer based on Meta-Learning approach [0.0]
本研究ではメタラーニングからAdamへの'ウォード勾配下降'の概念を融合させる革新的なアプローチを紹介する。
適応行列 P 内に学習可能な歪み行列 P を導入することにより,多様なデータ分布にまたがるモデルの能力を高めることを目指す。
本研究は,理論的洞察と実証的評価を通じて,この新たなアプローチの可能性を示すものである。
論文 参考訳(メタデータ) (2024-09-06T12:51:10Z) - Data-driven Prior Learning for Bayesian Optimisation [5.199765487172328]
PLeBOと先行転送は少ない評価で良好な入力が得られることを示す。
学習先を検証し,伝達学習手法の広さと比較する。
PLeBOと先行転送は少ない評価で良好な入力が得られることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:37:52Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。