論文の概要: Automatic Gradient Descent: Deep Learning without Hyperparameters
- arxiv url: http://arxiv.org/abs/2304.05187v1
- Date: Tue, 11 Apr 2023 12:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 14:52:52.976221
- Title: Automatic Gradient Descent: Deep Learning without Hyperparameters
- Title(参考訳): 自動グラディエントDescent:ハイパーパラメータなしのディープラーニング
- Authors: Jeremy Bernstein and Chris Mingard and Kevin Huang and Navid Azizan
and Yisong Yue
- Abstract要約: ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
- 参考スコア(独自算出の注目度): 35.350274248478804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The architecture of a deep neural network is defined explicitly in terms of
the number of layers, the width of each layer and the general network topology.
Existing optimisation frameworks neglect this information in favour of implicit
architectural information (e.g. second-order methods) or architecture-agnostic
distance functions (e.g. mirror descent). Meanwhile, the most popular optimiser
in practice, Adam, is based on heuristics. This paper builds a new framework
for deriving optimisation algorithms that explicitly leverage neural
architecture. The theory extends mirror descent to non-convex composite
objective functions: the idea is to transform a Bregman divergence to account
for the non-linear structure of neural architecture. Working through the
details for deep fully-connected networks yields automatic gradient descent: a
first-order optimiser without any hyperparameters. Automatic gradient descent
trains both fully-connected and convolutional networks out-of-the-box and at
ImageNet scale. A PyTorch implementation is available at
https://github.com/jxbz/agd and also in Appendix B. Overall, the paper supplies
a rigorous theoretical foundation for a next-generation of
architecture-dependent optimisers that work automatically and without
hyperparameters.
- Abstract(参考訳): ディープニューラルネットワークのアーキテクチャは、レイヤの数、各レイヤの幅、および一般的なネットワークトポロジーの観点から明示的に定義される。
既存の最適化フレームワークはこの情報を無視し、暗黙のアーキテクチャ情報(二階法など)やアーキテクチャに依存しない距離関数(ミラー降下など)を好む。
一方、最も人気のあるオプティマイザであるアダムはヒューリスティックスに基づいている。
本稿では,ニューラルアーキテクチャを明示的に活用する最適化アルゴリズムを導出するための新しいフレームワークを構築する。
この理論はミラー降下を非凸合成目的関数へと拡張し、ブレグマンの発散をニューラルアーキテクチャの非線形構造を説明するために変換する。
完全に接続されたネットワークの詳細な処理は、自動勾配降下(ハイパーパラメータを持たない一階オプティマイザ)をもたらす。
自動勾配降下は、完全に接続されたネットワークと畳み込みネットワークの両方をimagenetスケールでトレーニングする。
PyTorchの実装は、https://github.com/jxbz/agdおよびAppendix Bで利用可能である。
関連論文リスト
- Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally [2.645067871482715]
機械学習タスクでは、ある機能空間内で最適な関数を探索する。
この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。
表現力のボトルネックによる望ましいアーキテクチャ変更に関する情報は, 後処理の % から抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-05-30T08:23:56Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - On the Implicit Biases of Architecture & Gradient Descent [46.34988166338264]
本稿では、トレーニングデータに適合する典型的なネットワークは、既にかなり一般化されているが、勾配降下は、大きなマージンを持つネットワークを選択することにより、さらに一般化を向上させることができることを見出した。
新しい技術ツールは、アーキテクチャの暗黙のバイアスと勾配降下の両方を含む一般化の微妙なポートレートを示唆している。
論文 参考訳(メタデータ) (2021-10-08T17:36:37Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。