論文の概要: A Generalizable Approach to Learning Optimizers
- arxiv url: http://arxiv.org/abs/2106.00958v1
- Date: Wed, 2 Jun 2021 06:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:49:04.071141
- Title: A Generalizable Approach to Learning Optimizers
- Title(参考訳): 学習オプティマイザへの一般化アプローチ
- Authors: Diogo Almeida, Clemens Winter, Jie Tang, Wojciech Zaremba
- Abstract要約: このシステムは、トレーニング中に見えないモダリティを含むあらゆるニューラルネットワークタスクにおいて、Adamより優れています。
ImageNetでは2倍のスピードアップを実現し、トレーニングタスクよりも5桁以上の計算量で言語モデリングタスクの2.5倍のスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 16.278302460944783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core issue with learning to optimize neural networks has been the lack of
generalization to real world problems. To address this, we describe a system
designed from a generalization-first perspective, learning to update optimizer
hyperparameters instead of model parameters directly using novel features,
actions, and a reward function. This system outperforms Adam at all neural
network tasks including on modalities not seen during training. We achieve 2x
speedups on ImageNet, and a 2.5x speedup on a language modeling task using over
5 orders of magnitude more compute than the training tasks.
- Abstract(参考訳): ニューラルネットワークを最適化する学習の核となる問題は、現実世界の問題に対する一般化の欠如である。
そこで本研究では,モデルパラメータではなくオプティマイザハイパーパラメータを,新たな特徴やアクション,報酬関数を用いて直接更新する方法を,一般化優先の観点から設計したシステムについて述べる。
このシステムはトレーニング中に見えないモダリティを含むすべてのニューラルネットワークタスクでadamを上回っている。
ImageNetでは2倍のスピードアップを実現し、トレーニングタスクよりも5桁以上の計算量で言語モデリングタスクの2.5倍のスピードアップを実現しています。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Adaptive Optimization Algorithms for Machine Learning [0.0]
機械学習は、データ駆動の世界において重要な役割を担います。
この論文は、新しい洞察をもたらし、収束保証を改善した新しいアルゴリズムを導入し、人気のある実用的なアルゴリズムの分析を改善する。
論文 参考訳(メタデータ) (2023-11-16T21:22:47Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Neural Nets with a Newton Conjugate Gradient Method on Multiple GPUs [0.0]
ディープニューラルネットワークのトレーニングは多くの計算センターで計算リソースの共有を消費する。
本稿では,ベクトルのみに対するヘシアンの効果を必要とする新しい二階最適化手法を提案する。
提案手法を5つの代表的ニューラルネットワーク問題に対して2つの最先端技術と比較した。
論文 参考訳(メタデータ) (2022-08-03T12:38:23Z) - Neural Network Optimization for Reinforcement Learning Tasks Using
Sparse Computations [3.4328283704703866]
本稿では、強化学習タスクにニューラルネットワークを最適化するスパース計算に基づく手法を提案する。
これにより、ニューラルネットワークの実行時の乗算数が大幅に削減される。
論文 参考訳(メタデータ) (2022-01-07T18:09:23Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Superiorities of Deep Extreme Learning Machines against Convolutional
Neural Networks [3.04585143845864]
deep learning (dl)は、入力データを詳細に分析する人工知能のための機械学習手順である。
DLはグラフィカル処理ユニット機能の一般的な改善で人気がある。
Deep Extreme Learning Machine(Deep ELM)は、迅速な分類問題を解決するための最速かつ効果的な方法の1つです。
論文 参考訳(メタデータ) (2021-01-21T08:22:18Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。