Fugu-MT 論文翻訳(概要): Generalizing Adam to Manifolds for Efficiently Training Transformers

論文の概要: Generalizing Adam to Manifolds for Efficiently Training Transformers

arxiv url: http://arxiv.org/abs/2305.16901v2
Date: Tue, 19 Dec 2023 09:41:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 02:17:01.714005
Title: Generalizing Adam to Manifolds for Efficiently Training Transformers
Title（参考訳）: 変圧器の効率的な訓練のためのアダムのマニフォールドへの一般化
Authors: Benedikt Brantner
Abstract要約: アダムはニューラルネットワークのトレーニングに使われているが、解釈が難しいことで知られている。ニューラルネットワークの最適化に関係した多様体の特別な構造を利用する新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the primary reasons behind the success of neural networks has been the emergence of an array of new, highly-successful optimizers, perhaps most importantly the Adam optimizer. It is wiedely used for training neural networks, yet notoriously hard to interpret. Lacking a clear physical intuition, Adam is difficult to generalize to manifolds. Some attempts have been made to directly apply parts of the Adam algorithm to manifolds or to find an underlying structure, but a full generalization has remained elusive. In this work a new approach is presented that leverages the special structure of the manifolds which are relevant for optimization of neural networks, such as the Stiefel manifold, the symplectic Stiefel manifold, the Grassmann manifold and the symplectic Grassmann manifold: all of these are homogeneous spaces and as such admit a global tangent space representation. This global tangent space representation is used to perform all of the steps in the Adam optimizer. The resulting algorithm is then applied to train a transformer for which orthogonality constraints are enforced up to machine precision and we observe significant speed-ups in the training process. Optimization of neural networks where they weights do not lie on a manifold is identified as a special case of the presented framkework. This allows for a flexible implementation in which the learning rate is adapted simultaneously for all parameters, irrespective of whether they are an element of a general manifold or a vector space.
Abstract（参考訳）: ニューラルネットワークが成功した主な理由の1つは、新しい、非常に成功したオプティマイザ、おそらく最も重要なのはadamオプティマイザの出現だった。ニューラルネットワークのトレーニングによく使われているが、解釈が難しい。明快な物理的直観を欠くため、アダムは多様体への一般化が難しい。アダムアルゴリズムの一部を多様体に直接適用したり、基礎構造を見つけようとする試みもあるが、完全な一般化はいまだに解明されていない。本稿では、スティフェル多様体、シンプレクティックスティーフェル多様体、グラスマン多様体、シンプレクティックグラスマン多様体などのニューラルネットワークの最適化に関連する多様体の特殊構造を利用する新しいアプローチを提案する。このグローバル接空間表現は、アダム最適化器のすべてのステップを実行するために使われる。得られたアルゴリズムは、直交制約を機械の精度まで強制する変圧器の訓練に適用され、トレーニングプロセスにおいてかなりのスピードアップが観察される。重みが多様体上にないニューラルネットワークの最適化は、提示されたフラムクワークの特別な場合として同定される。これにより、一般多様体やベクトル空間の要素であるかどうかに関わらず、学習率を全てのパラメータに同時に適用できる柔軟な実装が可能になる。

関連論文リスト

Riemannian generative decoder [11.074080383657453]
本稿では,多様体値の潜在値に基づく新しい表現学習法を提案する。本手法は既存のアーキテクチャと互換性があり,データ形状に整合した解釈可能な潜在空間が得られる。我々は,ミトコンドリアDNAからのヒト移行,細胞分裂サイクル中の細胞という3つのケーススタディに対するアプローチを検証した。
論文参考訳（メタデータ） (2025-06-23T21:06:13Z)
The Rich and the Simple: On the Implicit Bias of Adam and SGD [22.211512632184398]
Adamは、いくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムである。実際には、(確率的な)降下勾配(GD)で訓練されたニューラルネットワークは、単純さのバイアスを示すことが知られている。我々は、Adamがこのような単純さのバイアスに抵抗していることを示します。
論文参考訳（メタデータ） (2025-05-29T21:46:12Z)
On the Convergence of Adam-Type Algorithm for Bilevel Optimization under Unbounded Smoothness [15.656614304616006]
本稿では,単ループのAdam-type法であるAdamBOについて紹介する。バイレベルを含む各種機械学習タスクについて実験を行った。リカレントニューラルネットワーク(RNN)とトランスフォーマーによる定式化。
論文参考訳（メタデータ） (2025-03-05T21:16:59Z)
LBONet: Supervised Spectral Descriptors for Shape Analysis [2.7762142076121052]
ラプラス・ベルトラミ作用素は、厳密でない形状解析の分野で自身を確立している。本稿では,多様体上で数個の演算子を学習する教師付き手法を提案する。これらの関数を適用することで、よりタスク固有のLBO固有基底を訓練することができる。
論文参考訳（メタデータ） (2024-11-13T00:49:05Z)
On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。 SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文参考訳（メタデータ） (2024-10-07T09:36:43Z)
Matrix Manifold Neural Networks++ [18.385670036798707]
我々はSPDニューラルネットワークのための完全接続層を設計する。本稿では,プロジェクタの観点から,グラスマン対数写像を用いて逆プロパゲーションを行う手法を提案する。
論文参考訳（メタデータ） (2024-05-29T15:47:35Z)
Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-07T20:12:27Z)
Decentralized Riemannian Conjugate Gradient Method on the Stiefel Manifold [59.73080197971106]
本稿では,最急降下法よりも高速に収束する一階共役最適化法を提案する。これはスティーフェル多様体上の大域収束を達成することを目的としている。
論文参考訳（メタデータ） (2023-08-21T08:02:16Z)
Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文参考訳（メタデータ） (2022-06-09T08:59:46Z)
Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。 SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文参考訳（メタデータ） (2021-12-15T09:50:25Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-06-15T06:39:13Z)
Towards Practical Adam: Non-Convexity, Convergence Theory, and Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文参考訳（メタデータ） (2021-01-14T06:42:29Z)
Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-10-28T22:24:07Z)
Manifold Learning via Manifold Deflation [105.7418091051558]
次元削減法は、高次元データの可視化と解釈に有用な手段を提供する。多くの一般的な手法は単純な2次元のマニフォールドでも劇的に失敗する。本稿では,グローバルな構造を座標として組み込んだ,新しいインクリメンタルな空間推定器の埋め込み手法を提案する。実験により,本アルゴリズムは実世界および合成データセットに新規で興味深い埋め込みを復元することを示した。
論文参考訳（メタデータ） (2020-07-07T10:04:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。