論文の概要: Generalizing Adam to Manifolds for Efficiently Training Transformers
- arxiv url: http://arxiv.org/abs/2305.16901v2
- Date: Tue, 19 Dec 2023 09:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 02:17:01.714005
- Title: Generalizing Adam to Manifolds for Efficiently Training Transformers
- Title(参考訳): 変圧器の効率的な訓練のためのアダムのマニフォールドへの一般化
- Authors: Benedikt Brantner
- Abstract要約: アダムはニューラルネットワークのトレーニングに使われているが、解釈が難しいことで知られている。
ニューラルネットワークの最適化に関係した多様体の特別な構造を利用する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the primary reasons behind the success of neural networks has been the
emergence of an array of new, highly-successful optimizers, perhaps most
importantly the Adam optimizer. It is wiedely used for training neural
networks, yet notoriously hard to interpret. Lacking a clear physical
intuition, Adam is difficult to generalize to manifolds. Some attempts have
been made to directly apply parts of the Adam algorithm to manifolds or to find
an underlying structure, but a full generalization has remained elusive. In
this work a new approach is presented that leverages the special structure of
the manifolds which are relevant for optimization of neural networks, such as
the Stiefel manifold, the symplectic Stiefel manifold, the Grassmann manifold
and the symplectic Grassmann manifold: all of these are homogeneous spaces and
as such admit a global tangent space representation. This global tangent space
representation is used to perform all of the steps in the Adam optimizer. The
resulting algorithm is then applied to train a transformer for which
orthogonality constraints are enforced up to machine precision and we observe
significant speed-ups in the training process. Optimization of neural networks
where they weights do not lie on a manifold is identified as a special case of
the presented framkework. This allows for a flexible implementation in which
the learning rate is adapted simultaneously for all parameters, irrespective of
whether they are an element of a general manifold or a vector space.
- Abstract(参考訳): ニューラルネットワークが成功した主な理由の1つは、新しい、非常に成功したオプティマイザ、おそらく最も重要なのはadamオプティマイザの出現だった。
ニューラルネットワークのトレーニングによく使われているが、解釈が難しい。
明快な物理的直観を欠くため、アダムは多様体への一般化が難しい。
アダムアルゴリズムの一部を多様体に直接適用したり、基礎構造を見つけようとする試みもあるが、完全な一般化はいまだに解明されていない。
本稿では、スティフェル多様体、シンプレクティックスティーフェル多様体、グラスマン多様体、シンプレクティックグラスマン多様体などのニューラルネットワークの最適化に関連する多様体の特殊構造を利用する新しいアプローチを提案する。
このグローバル接空間表現は、アダム最適化器のすべてのステップを実行するために使われる。
得られたアルゴリズムは、直交制約を機械の精度まで強制する変圧器の訓練に適用され、トレーニングプロセスにおいてかなりのスピードアップが観察される。
重みが多様体上にないニューラルネットワークの最適化は、提示されたフラムクワークの特別な場合として同定される。
これにより、一般多様体やベクトル空間の要素であるかどうかに関わらず、学習率を全てのパラメータに同時に適用できる柔軟な実装が可能になる。
関連論文リスト
- LBONet: Supervised Spectral Descriptors for Shape Analysis [2.7762142076121052]
ラプラス・ベルトラミ作用素は、厳密でない形状解析の分野で自身を確立している。
本稿では,多様体上で数個の演算子を学習する教師付き手法を提案する。
これらの関数を適用することで、よりタスク固有のLBO固有基底を訓練することができる。
論文 参考訳(メタデータ) (2024-11-13T00:49:05Z) - On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - Matrix Manifold Neural Networks++ [18.385670036798707]
我々はSPDニューラルネットワークのための完全接続層を設計する。
本稿では,プロジェクタの観点から,グラスマン対数写像を用いて逆プロパゲーションを行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T15:47:35Z) - Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。
最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。
本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-07T20:12:27Z) - Decentralized Riemannian Conjugate Gradient Method on the Stiefel
Manifold [59.73080197971106]
本稿では,最急降下法よりも高速に収束する一階共役最適化法を提案する。
これはスティーフェル多様体上の大域収束を達成することを目的としている。
論文 参考訳(メタデータ) (2023-08-21T08:02:16Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。