論文の概要: Learning by Turning: Neural Architecture Aware Optimisation
- arxiv url: http://arxiv.org/abs/2102.07227v1
- Date: Sun, 14 Feb 2021 19:30:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:21:25.731527
- Title: Learning by Turning: Neural Architecture Aware Optimisation
- Title(参考訳): Turningによる学習: ニューラルネットワークアーキテクチャの最適化
- Authors: Yang Liu, Jeremy Bernstein, Markus Meister, Yisong Yue
- Abstract要約: 本稿では,ニューラルアーキテクチャと最適化の複合研究を行い,Neroと呼ばれる新しいオプティマイザを開発した。
Neroは運動量や体重の減少なしに確実に列車を運転し、AdamとSGDが失敗する状況で働き、学習率のチューニングはほとんど必要としません。
- 参考スコア(独自算出の注目度): 40.2523642282246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Descent methods for deep networks are notoriously capricious: they require
careful tuning of step size, momentum and weight decay, and which method will
work best on a new benchmark is a priori unclear. To address this problem, this
paper conducts a combined study of neural architecture and optimisation,
leading to a new optimiser called Nero: the neuronal rotator. Nero trains
reliably without momentum or weight decay, works in situations where Adam and
SGD fail, and requires little to no learning rate tuning. Also, Nero's memory
footprint is ~ square root that of Adam or LAMB. Nero combines two ideas: (1)
projected gradient descent over the space of balanced networks; (2)
neuron-specific updates, where the step size sets the angle through which each
neuron's hyperplane turns. The paper concludes by discussing how this geometric
connection between architecture and optimisation may impact theories of
generalisation in deep learning.
- Abstract(参考訳): ステップサイズ、運動量、重量の減衰を慎重に調整する必要があるため、新しいベンチマークでどの方法が最もうまくいくかが優先順位不明です。
この問題に対処するため,本稿では神経構造と最適化の複合研究を行い,神経回転子(nero: the neuronal rotator)と呼ばれる新しい光学系を導いた。
Neroは運動量や体重の減少なしに確実に列車を運転し、AdamとSGDが失敗する状況で働き、学習率のチューニングはほとんど必要としません。
また、Neroのメモリフットプリントは、アダムやLAMBの正方形のルートです。
ネロは、(1)バランスの取れたネットワーク空間上の勾配降下、(2)ニューロン固有の更新、(2)ステップサイズが各ニューロンの超平面が回転する角度を設定する。
アーキテクチャと最適化の間の幾何学的関係が、ディープラーニングの一般化の理論にどのように影響するかを論じる。
関連論文リスト
- Automatic Gradient Descent: Deep Learning without Hyperparameters [35.350274248478804]
ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
論文 参考訳(メタデータ) (2023-04-11T12:45:52Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - More layers! End-to-end regression and uncertainty on tabular data with
deep learning [0.0]
決定木とそのアンサンブルがこの領域の主要な方法であると考えられている。
ディープニューラルネットワークは、勾配に基づく階層表現を構築するためのフレームワークである。
本稿では,不確実性を伴う回帰問題に対するエンドツーエンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-07T08:41:48Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - A Study of the Mathematics of Deep Learning [1.14219428942199]
深層学習」/「深層ニューラルネットワーク」は、人工知能の最先端のタスクにますます展開されている技術的驚異です。
この論文は、これらの新しいディープラーニングのパラダイムの強力な理論基盤を構築するためのいくつかのステップを踏む。
論文 参考訳(メタデータ) (2021-04-28T22:05:54Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Learning compositional functions via multiplicative weight updates [97.9457834009578]
乗算重み更新は構成関数に合わせた降下補題を満たすことを示す。
マダムは、学習率のチューニングなしに、最先端のニューラルネットワークアーキテクチャをトレーニングできることを示す。
論文 参考訳(メタデータ) (2020-06-25T17:05:19Z) - Deep Convolutional Neural Network-based Bernoulli Heatmap for Head Pose
Estimation [11.676928225717337]
本稿では1枚のRGB画像から頭部ポーズ推定のためのベルヌーイヒートマップを提案する。
本手法は頭部の角度を推定しながら頭部位置を推定できる。
マルチスケール表現を備えたディープ畳み込みニューラルネットワーク(CNN)構造を採用し、高解像度情報を維持する。
論文 参考訳(メタデータ) (2020-05-24T15:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。