Fugu-MT 論文翻訳(概要): Geometry and Dynamics of LayerNorm

論文の概要: Geometry and Dynamics of LayerNorm

arxiv url: http://arxiv.org/abs/2405.04134v1
Date: Tue, 7 May 2024 09:01:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 14:49:39.346953
Title: Geometry and Dynamics of LayerNorm
Title（参考訳）: レイヤーノームの幾何学とダイナミクス
Authors: Paul M. Riechers,
Abstract要約: LayerNormは、入力アクティベーションベクトルに線形射影、非線形スケーリング、アフィン変換の合成を実装している。 LayerNormのすべての結果は(N-1)-次元超平面の交叉とN-次元超楕円体の内部にある。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A technical note aiming to offer deeper intuition for the LayerNorm function common in deep neural networks. LayerNorm is defined relative to a distinguished 'neural' basis, but it does more than just normalize the corresponding vector elements. Rather, it implements a composition -- of linear projection, nonlinear scaling, and then affine transformation -- on input activation vectors. We develop both a new mathematical expression and geometric intuition, to make the net effect more transparent. We emphasize that, when LayerNorm acts on an N-dimensional vector space, all outcomes of LayerNorm lie within the intersection of an (N-1)-dimensional hyperplane and the interior of an N-dimensional hyperellipsoid. This intersection is the interior of an (N-1)-dimensional hyperellipsoid, and typical inputs are mapped near its surface. We find the direction and length of the principal axes of this (N-1)-dimensional hyperellipsoid via the eigen-decomposition of a simply constructed matrix.
Abstract（参考訳）: ディープニューラルネットワークで一般的なLayerNorm関数の深い直感を提供することを目的とした技術ノート。 LayerNormは、区別された「神経」基底に対して定義されるが、対応するベクトル要素を単に正規化する以上のものである。むしろ、線形射影、非線形スケーリング、そしてアフィン変換の合成を入力活性化ベクトル上で実装する。我々は、ネット効果をより透明にするために、新しい数学的表現と幾何学的直観の両方を開発する。我々は、LayerNorm が N-次元ベクトル空間上で作用するとき、LayerNorm のすべての結果は (N-1)-次元超平面の交叉と N-次元超楕円体の内部にあることを強調する。この交叉は(N-1)次元超楕円体の内部であり、典型的な入力はその表面の近くでマッピングされる。この(N-1)次元超楕円体の主軸の方向と長さは、単純な構成行列の固有分解によって得られる。

関連論文リスト

An Intrinsic Vector Heat Network [64.55434397799728]
本稿では,3次元に埋め込まれた接ベクトル場を学習するためのニューラルネットワークアーキテクチャを提案する。本研究では, ベクトル値の特徴データを空間的に伝播させるために, トレーニング可能なベクトル熱拡散モジュールを提案する。また,四面体メッシュ生成の産業的有用性に対する本手法の有効性を実証した。
論文参考訳（メタデータ） (2024-06-14T00:40:31Z)
Emergence of Grid-like Representations by Training Recurrent Networks with Conformal Normalization [48.99772993899573]
ニューラルネットワークモデルに基づくグリッドセルの六角形格子パターンの出現について検討した。本稿では、RNNの入力速度の単純かつ一般的な等角正規化を提案する。我々は、六角形格子パターンの出現に共形正規化が不可欠であることを示す広範な実験を行う。
論文参考訳（メタデータ） (2023-10-29T23:12:56Z)
Spectral embedding and the latent geometry of multipartite networks [67.56499794542228]
多くのネットワークはマルチパーティションであり、ノードはパーティションに分割され、同じパーティションのノードは接続されない。本稿では,高次元空間の分割特異的な低次元部分空間近傍のスペクトル埋め込みにより得られるノード表現について述べる。スペクトル埋め込み後の追従ステップとして,周辺次元ではなく固有次元のノード表現を復元する手法を提案する。
論文参考訳（メタデータ） (2022-02-08T15:52:03Z)
Laplacian2Mesh: Laplacian-Based Mesh Understanding [4.808061174740482]
我々は3次元トライアングルメッシュのための新しいフレキシブル畳み込みニューラルネットワーク(CNN)モデルであるLaplacian2Meshを紹介した。メッシュプーリングはラプラシアンの多空間変換によりネットワークの受容場を拡張するために適用される。 3Dメッシュに適用されたさまざまな学習タスクの実験は、Laplacian2Meshの有効性と効率を実証している。
論文参考訳（メタデータ） (2022-02-01T10:10:13Z)
Input Convex Gradient Networks [7.747759814657507]
ニューラルネットワークによりパラメータ化されたヤコビアンベクトル積を統合することにより凸勾配をモデル化する方法を検討する。我々は,単一層ICGNが単一層ICNNよりもおもちゃの例に適合できることを実証的に実証した。
論文参考訳（メタデータ） (2021-11-23T22:51:25Z)
A Differential Geometry Perspective on Orthogonal Recurrent Models [56.09491978954866]
我々は微分幾何学からのツールと洞察を用いて、直交rnnの新しい視点を提供する。直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。
論文参考訳（メタデータ） (2021-02-18T19:39:22Z)
From deep to Shallow: Equivalent Forms of Deep Networks in Reproducing Kernel Krein Space and Indefinite Support Vector Machines [63.011641517977644]
ディープネットワークを等価な(不確定な)カーネルマシンに変換します。次に、この変換がキャパシティ制御および一様収束に与える影響について検討する。最後に、平坦表現の空間性について解析し、平坦な重みが(効果的に) 0p1 で正規化された Lp-"ノルム" であることが示される。
論文参考訳（メタデータ） (2020-07-15T03:21:35Z)
Embed Me If You Can: A Geometric Perceptron [14.274582421372308]
多層超球パーセプトロン(MLHP)の拡張について紹介する。我々のモデルは3次元テトリス形状の分類においてバニラ多層パーセプトロンよりも優れている。
論文参考訳（メタデータ） (2020-06-11T15:25:50Z)
On the Convex Behavior of Deep Neural Networks in Relation to the Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文参考訳（メタデータ） (2020-01-14T16:30:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。