論文の概要: Narrowing the Focus: Learned Optimizers for Pretrained Models
- arxiv url: http://arxiv.org/abs/2408.09310v3
- Date: Sat, 5 Oct 2024 01:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 07:07:05.241052
- Title: Narrowing the Focus: Learned Optimizers for Pretrained Models
- Title(参考訳): 焦点を絞る:事前学習モデルのための学習最適化
- Authors: Gus Kristiansen, Mark Sandler, Andrey Zhmoginov, Nolan Miller, Anirudh Goyal, Jihwan Lee, Max Vladymyrov,
- Abstract要約: 本稿では,一連の基本作業タスクによって提供される更新方向の階層固有の線形結合を学習する手法を提案する。
画像上で評価すると、これはAdamのような従来の既成の方法と既存の一般的な学習の両方で著しく優れています。
- 参考スコア(独自算出の注目度): 24.685918556547055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern deep learning, the models are learned by applying gradient updates using an optimizer, which transforms the updates based on various statistics. Optimizers are often hand-designed and tuning their hyperparameters is a big part of the training process. Learned optimizers have shown some initial promise, but are generally unsuccessful as a general optimization mechanism applicable to every problem. In this work we explore a different direction: instead of learning general optimizers, we instead specialize them to a specific training environment. We propose a novel optimizer technique that learns a layer-specific linear combination of update directions provided by a set of base optimizers, effectively adapting its strategy to the specific model and dataset. When evaluated on image classification tasks, this specialized optimizer significantly outperforms both traditional off-the-shelf methods such as Adam, as well as existing general learned optimizers. Moreover, it demonstrates robust generalization with respect to model initialization, evaluating on unseen datasets, and training durations beyond its meta-training horizon.
- Abstract(参考訳): 現代のディープラーニングでは、モデルはオプティマイザを使用して勾配更新を適用することで学習され、様々な統計に基づいて更新を変換する。
最適化者は手作業で設計されることが多く、ハイパーパラメータをチューニングすることがトレーニングプロセスの重要な部分です。
学習されたオプティマイザはいくつかの最初の約束を示してきたが、一般にあらゆる問題に適用可能な一般的な最適化メカニズムとして失敗している。
一般的なオプティマイザを学ぶ代わりに、特定のトレーニング環境に専門化します。
ベースオプティマイザの集合によって提供される更新方向の層特異的な線形結合を学習し,その戦略を特定のモデルとデータセットに効果的に適応させる,新しいオプティマイザ手法を提案する。
画像分類タスクで評価すると、この特殊オプティマイザはAdamのような従来のオフ・ザ・シェルフ手法と既存の一般的な学習オプティマイザの両方よりも大幅に優れている。
さらに、モデル初期化に関する堅牢な一般化、目に見えないデータセットの評価、メタトレーニングの地平線を超えたトレーニング期間を示す。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Meta-Learning Parameterized First-Order Optimizers using Differentiable
Convex Optimization [13.043909705693249]
本稿では、内部ループ最適化ステップにおいて、微分凸最適化(DCO)を解くメタラーニングフレームワークを提案する。
線形最小二乗問題の族を一段階最適化できることを示すことによって、このアプローチの理論的魅力を説明する。
論文 参考訳(メタデータ) (2023-03-29T18:17:41Z) - Learning to Optimize with Dynamic Mode Decomposition [0.0]
本稿では,動的モード分解法を用いて最適化力学に関する情報的特徴を抽出する方法を示す。
学習結果から,最適化問題を簡潔に解き明かすことにより,より一般化できることが示される。
論文 参考訳(メタデータ) (2022-11-29T14:55:59Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - A Closer Look at Learned Optimization: Stability, Robustness, and
Inductive Biases [44.01339030872185]
ブラックボックスは、しばしば、メタトレーニングセットのタスクと異なり、安定性と一般化に苦しむ。
最適化アルゴリズムの帰納バイアスと安定性特性について検討し、結果として得られる知見をブラックボックスの帰納バイアスの設計に適用する。
私たちはさまざまなニューラルネットワークトレーニングタスクを学び、そこで学んだ技術の現状を上回ります。
論文 参考訳(メタデータ) (2022-09-22T17:47:21Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - Adaptive Optimization with Examplewise Gradients [23.504973357538418]
本稿では,機械学習のための勾配に基づく最適化手法の設計に対して,より汎用的なアプローチを提案する。
この新しいフレームワークでは、イテレーションは単一の見積もりではなく、パラメータごとの見積もりのバッチへのアクセスを前提としています。
これは、典型的な機械学習のセットアップで実際に利用できる情報を反映している。
論文 参考訳(メタデータ) (2021-11-30T23:37:01Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。