論文の概要: nGPT: Normalized Transformer with Representation Learning on the Hypersphere
- arxiv url: http://arxiv.org/abs/2410.01131v1
- Date: Tue, 1 Oct 2024 23:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:00:28.104222
- Title: nGPT: Normalized Transformer with Representation Learning on the Hypersphere
- Title(参考訳): nGPT:超球面表現学習を用いた正規化変圧器
- Authors: Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun, Boris Ginsburg,
- Abstract要約: 我々は新しいニューラルネットワークアーキテクチャ、正規化トランスフォーマー(nGPT)を提案する。
nGPTはより高速に学習し、同じ精度を達成するために必要なトレーニングステップの数を4から20に削減する。
- 参考スコア(独自算出の注目度): 23.68985490613222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel neural network architecture, the normalized Transformer (nGPT) with representation learning on the hypersphere. In nGPT, all vectors forming the embeddings, MLP, attention matrices and hidden states are unit norm normalized. The input stream of tokens travels on the surface of a hypersphere, with each layer contributing a displacement towards the target output predictions. These displacements are defined by the MLP and attention blocks, whose vector components also reside on the same hypersphere. Experiments show that nGPT learns much faster, reducing the number of training steps required to achieve the same accuracy by a factor of 4 to 20, depending on the sequence length.
- Abstract(参考訳): 本稿では,超球面上で表現学習を行うニューラルニューラルネットワークアーキテクチャ,正規化トランスフォーマー(nGPT)を提案する。
nGPTでは、埋め込み、MLP、注意行列、隠れ状態を構成する全てのベクトルは、単位ノルム化される。
トークンの入力ストリームはハイパースフィアの表面を移動し、各層はターゲット出力予測への変位に寄与する。
これらの変位は、MLPとアテンションブロックによって定義され、ベクトル成分は同じ超球上に存在する。
実験の結果、nGPTはより高速に学習し、シーケンスの長さに応じて4から20の精度で同じ精度を達成するために必要なトレーニングステップの数を削減した。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文 参考訳(メタデータ) (2024-03-05T01:30:34Z) - Learning Signed Hyper Surfaces for Oriented Point Cloud Normal Estimation [53.19926259132379]
我々は,符号付きハイパー曲面の学習による点雲の向きの正規分布推定のためのSHS-Netと呼ばれる新しい手法を提案する。
符号付き超曲面は、局所的および大域的な情報を集約する高次元特徴空間において暗黙的に学習される。
注意重み付き正規予測モジュールをデコーダとして提案し,局所およびグローバル潜時符号を入力として向きの正規を推定する。
論文 参考訳(メタデータ) (2023-05-10T03:40:25Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Deriving Differential Target Propagation from Iterating Approximate
Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。
そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文 参考訳(メタデータ) (2020-07-29T22:34:45Z) - Region adaptive graph fourier transform for 3d point clouds [51.193111325231165]
本稿では,3次元点雲特性の圧縮のための領域適応グラフフーリエ変換(RA-GFT)を提案する。
RA-GFTは従来の手法よりも複雑性と性能のトレードオフが優れている。
論文 参考訳(メタデータ) (2020-03-04T02:47:44Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。