論文の概要: Normalization in Attention Dynamics
- arxiv url: http://arxiv.org/abs/2510.22026v1
- Date: Fri, 24 Oct 2025 21:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.741971
- Title: Normalization in Attention Dynamics
- Title(参考訳): 注意運動の正規化
- Authors: Nikita Karagodin, Shu Ge, Yury Polyanskiy, Philippe Rigollet,
- Abstract要約: 深部変圧器におけるトークン表現に対する正規化スキームの効果について検討する。
正規化は速度規制の一形態として機能することを示す。
この観点は、いくつかのスキームの統一的な解析を可能にする。
- 参考スコア(独自算出の注目度): 22.044350324339735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the effect of normalization schemes on token representations in deep transformers. Modeling their evolution as interacting particles on the sphere, we show that normalization acts as a form of speed regulation. This perspective enables a unified analysis of several schemes -- including Post-LN, Pre-LN, Mix-LN, Peri-LN, nGPT, and LN-Scaling -- revealing how they influence clustering dynamics and representation collapse. Our framework clarifies how different schemes shape token representations across layers and provides a principled basis for comparing them, identifying Peri-LN as a particularly effective choice.
- Abstract(参考訳): 深部変圧器におけるトークン表現に対する正規化スキームの効果について検討する。
球面上の相互作用粒子としてのそれらの進化をモデル化し、正規化が速度制御の一形態として働くことを示す。
この観点は、Post-LN、Pre-LN、Mix-LN、Peri-LN、nGPT、LN-Scalingを含むいくつかのスキームの統一的な分析を可能にし、クラスタリングのダイナミクスや表現の崩壊にどのように影響するかを明らかにする。
我々のフレームワークは、異なるスキームが層間でトークン表現をどう形成するかを明確にし、それらを比較するための原則的な基盤を提供し、Peri-LNを特に有効な選択肢とみなす。
関連論文リスト
- Attraction-Repulsion Swarming: A Generalized Framework of t-SNE via Force Normalization and Tunable Interactions [2.3020018305241337]
ARSは、アトラクションと反発力によって駆動される相互作用するエージェントの群として、t分散データ近接埋め込み(t-SNE)可視化技術を見ることに基づくフレームワークである。
ARSはまた、アトラクションとリプルションカーネルを個別にチューニングする機能も備えている。これにより、クラスタ内のタイツネスと、視覚化におけるそれらの間の間隔をユーザがコントロールできるようになる。
論文 参考訳(メタデータ) (2024-11-15T22:42:11Z) - Approaching Deep Learning through the Spectral Dynamics of Weights [41.948042468042374]
重みのスペクトル力学 -- 最適化中の特異値とベクトルの振る舞い -- は、ディープラーニングにおけるいくつかの現象を明確にし、統一する。
ConvNetによる画像分類,UNetsによる画像生成,LSTMによる音声認識,Transformersによる言語モデリングなど,さまざまな実験における最適化における一貫したバイアスを同定する。
論文 参考訳(メタデータ) (2024-08-21T17:48:01Z) - Dynamical heterogeneity and large deviations in the open quantum East glass model from tensor networks [0.0]
数値テンソルネットワークを用いた散逸量子東モデルの非平衡ダイナミクスについて検討する。
我々は行列積状態を用いて、正確な対角化にアクセスできるものを超える大きさの量子ジャンプなき大きさの進化を表現する。
論文 参考訳(メタデータ) (2024-04-04T18:41:18Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - SEGNO: Generalizing Equivariant Graph Neural Networks with Physical
Inductive Biases [66.61789780666727]
等変性を維持しながら, 2階連続性をGNNに組み込む方法を示す。
また、SEGNOに関する理論的知見も提供し、隣接する状態間の一意の軌跡を学習できることを強調している。
我々のモデルは最先端のベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-25T07:15:58Z) - Statistical Mechanics of Monitored Dissipative Random Circuits [4.0822320577783335]
モニタされたランダム回路のクラスに対する消散の影響について検討する。
モニタリングされた測定と散逸体制の合同行動は、短時間、中間時間、定常状態の挙動をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-03-14T18:00:18Z) - An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization [52.44068740462729]
我々は、VICRegの目的に関する情報理論的な視点を示す。
我々は、VICRegの一般化を導出し、下流タスクに固有の利点を明らかにした。
既存のSSL技術よりも優れた情報理論の原理から派生したSSL手法のファミリーを紹介する。
論文 参考訳(メタデータ) (2023-03-01T16:36:25Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。