論文の概要: Generalizing Adam to Manifolds for Efficiently Training Transformers
- arxiv url: http://arxiv.org/abs/2305.16901v2
- Date: Tue, 19 Dec 2023 09:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 02:17:01.714005
- Title: Generalizing Adam to Manifolds for Efficiently Training Transformers
- Title(参考訳): 変圧器の効率的な訓練のためのアダムのマニフォールドへの一般化
- Authors: Benedikt Brantner
- Abstract要約: アダムはニューラルネットワークのトレーニングに使われているが、解釈が難しいことで知られている。
ニューラルネットワークの最適化に関係した多様体の特別な構造を利用する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the primary reasons behind the success of neural networks has been the
emergence of an array of new, highly-successful optimizers, perhaps most
importantly the Adam optimizer. It is wiedely used for training neural
networks, yet notoriously hard to interpret. Lacking a clear physical
intuition, Adam is difficult to generalize to manifolds. Some attempts have
been made to directly apply parts of the Adam algorithm to manifolds or to find
an underlying structure, but a full generalization has remained elusive. In
this work a new approach is presented that leverages the special structure of
the manifolds which are relevant for optimization of neural networks, such as
the Stiefel manifold, the symplectic Stiefel manifold, the Grassmann manifold
and the symplectic Grassmann manifold: all of these are homogeneous spaces and
as such admit a global tangent space representation. This global tangent space
representation is used to perform all of the steps in the Adam optimizer. The
resulting algorithm is then applied to train a transformer for which
orthogonality constraints are enforced up to machine precision and we observe
significant speed-ups in the training process. Optimization of neural networks
where they weights do not lie on a manifold is identified as a special case of
the presented framkework. This allows for a flexible implementation in which
the learning rate is adapted simultaneously for all parameters, irrespective of
whether they are an element of a general manifold or a vector space.
- Abstract(参考訳): ニューラルネットワークが成功した主な理由の1つは、新しい、非常に成功したオプティマイザ、おそらく最も重要なのはadamオプティマイザの出現だった。
ニューラルネットワークのトレーニングによく使われているが、解釈が難しい。
明快な物理的直観を欠くため、アダムは多様体への一般化が難しい。
アダムアルゴリズムの一部を多様体に直接適用したり、基礎構造を見つけようとする試みもあるが、完全な一般化はいまだに解明されていない。
本稿では、スティフェル多様体、シンプレクティックスティーフェル多様体、グラスマン多様体、シンプレクティックグラスマン多様体などのニューラルネットワークの最適化に関連する多様体の特殊構造を利用する新しいアプローチを提案する。
このグローバル接空間表現は、アダム最適化器のすべてのステップを実行するために使われる。
得られたアルゴリズムは、直交制約を機械の精度まで強制する変圧器の訓練に適用され、トレーニングプロセスにおいてかなりのスピードアップが観察される。
重みが多様体上にないニューラルネットワークの最適化は、提示されたフラムクワークの特別な場合として同定される。
これにより、一般多様体やベクトル空間の要素であるかどうかに関わらず、学習率を全てのパラメータに同時に適用できる柔軟な実装が可能になる。
関連論文リスト
- Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。
最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。
本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-07T20:12:27Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Riemannian Residual Neural Networks [58.925132597945634]
残余ニューラルネットワーク(ResNet)の拡張方法を示す。
ResNetは、機械学習において、有益な学習特性、優れた経験的結果、そして様々なニューラルネットワークを構築する際に容易に組み込める性質のために、ユビキタスになった。
論文 参考訳(メタデータ) (2023-10-16T02:12:32Z) - On Equivalent Optimization of Machine Learning Methods [1.9573380763700712]
学習速度,バッチサイズ,層幅,データセット,アクティベーション関数の選択が,トレーニング中のネットワークパラメータの等価あるいは等価な進化につながる場合の一般的な特徴を示す。
その結果, バッチサイズ比, 層幅, データセットの性質(手書きと合成) およびアクティベーション関数が共役性に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Vector Neurons: A General Framework for SO(3)-Equivariant Networks [32.81671803104126]
本稿では,ベクトルニューロン表現(Vector Neuron representations)をベースとした汎用フレームワークを提案する。
我々のベクトルニューロンは、SO(3) の作用を潜在空間へ簡単にマッピングできる。
また、回転等変性再構成ネットワークを初めて示しました。
論文 参考訳(メタデータ) (2021-04-25T18:48:15Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Self-Organized Operational Neural Networks with Generative Neurons [87.32169414230822]
ONNは、任意の非線型作用素をカプセル化できる一般化されたニューロンモデルを持つ異種ネットワークである。
我々は,各接続の結節演算子を適応(最適化)できる生成ニューロンを有する自己組織型ONN(Self-ONNs)を提案する。
論文 参考訳(メタデータ) (2020-04-24T14:37:56Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。