論文の概要: Generalizing Adam to Manifolds for Efficiently Training Transformers
- arxiv url: http://arxiv.org/abs/2305.16901v3
- Date: Mon, 30 Sep 2024 08:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:58:38.646451
- Title: Generalizing Adam to Manifolds for Efficiently Training Transformers
- Title(参考訳): 変圧器の効率的な訓練のためのアダムのマニフォールドへの一般化
- Authors: Benedikt Brantner,
- Abstract要約: アダムはニューラルネットワークのトレーニングに広く使われているが、解釈が難しいことで知られている。
シンプレクティック・スティーフェル多様体の特別な構造を利用する新しいアプローチが提示される。
グローバル接空間表現は、アダムのすべてのステップを実行するために使われる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: One of the primary reasons behind the success of neural networks has been the emergence of an array of new, highly-successful optimizers, perhaps most importantly the Adam optimizer. It is widely used for training neural networks, yet notoriously hard to interpret. Lacking a clear physical intuition, Adam is difficult to generalize to manifolds. Some attempts have been made to directly apply parts of the Adam algorithm to manifolds or to find an underlying structure, but a full generalization has remained elusive. In this work a new approach is presented that leverages the special structure of the manifolds which are relevant for optimization of neural networks, such as the Stiefel manifold, the symplectic Stiefel manifold, the Grassmann manifold and the symplectic Grassmann manifold: all of these are homogeneous spaces and as such admit a global tangent space representation. This global tangent space representation is used to perform all of the steps in the Adam optimizer and we are able to fully generalize the optimizer to manifolds without a projection step. The resulting algorithm is then applied to train a transformer for which orthogonality constraints are enforced up to machine precision and we observe significant speed-ups in the training process.
- Abstract(参考訳): ニューラルネットワークの成功の背景にあるおもな理由の1つは、Adamオプティマイザの登場である。
ニューラルネットワークのトレーニングに広く使用されているが、解釈が難しいことで知られている。
明快な物理的直観を欠くため、アダムは多様体に一般化することは困難である。
アダムアルゴリズムの一部を多様体に直接適用したり、基礎構造を見つけようとする試みもあるが、完全な一般化はいまだに解明されていない。
この研究において、スティーフェル多様体、シンプレクティック・スティーフェル多様体、グラスマン多様体、シンプレクティック・グラスマン多様体のようなニューラルネットワークの最適化に関係する多様体の特別な構造を利用する新しいアプローチが提示される。
この大域接空間表現は、アダム・オプティマイザのすべてのステップを実行するために使用され、射影ステップなしで、最適化器を多様体に完全に一般化することができる。
得られたアルゴリズムは、直交制約を機械の精度まで強制する変圧器の訓練に適用され、トレーニングプロセスにおいてかなりのスピードアップが観察される。
関連論文リスト
- Matrix Manifold Neural Networks++ [18.385670036798707]
我々はSPDニューラルネットワークのための完全接続層を設計する。
本稿では,プロジェクタの観点から,グラスマン対数写像を用いて逆プロパゲーションを行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T15:47:35Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。
最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。
本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-07T20:12:27Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Riemannian Residual Neural Networks [58.925132597945634]
残余ニューラルネットワーク(ResNet)の拡張方法を示す。
ResNetは、機械学習において、有益な学習特性、優れた経験的結果、そして様々なニューラルネットワークを構築する際に容易に組み込める性質のために、ユビキタスになった。
論文 参考訳(メタデータ) (2023-10-16T02:12:32Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Vector Neurons: A General Framework for SO(3)-Equivariant Networks [32.81671803104126]
本稿では,ベクトルニューロン表現(Vector Neuron representations)をベースとした汎用フレームワークを提案する。
我々のベクトルニューロンは、SO(3) の作用を潜在空間へ簡単にマッピングできる。
また、回転等変性再構成ネットワークを初めて示しました。
論文 参考訳(メタデータ) (2021-04-25T18:48:15Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。