論文の概要: A phase transition between positional and semantic learning in a
solvable model of dot-product attention
- arxiv url: http://arxiv.org/abs/2402.03902v1
- Date: Tue, 6 Feb 2024 11:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:19:21.674916
- Title: A phase transition between positional and semantic learning in a
solvable model of dot-product attention
- Title(参考訳): 点製品注意の可解モデルにおける位置学習と意味学習の相転移
- Authors: Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborov\'a
- Abstract要約: 点積注意層が位置注意行列と意味注意行列をいかに学習するかを示す。
アルゴリズム的なタスクに対して、同じ単純なアーキテクチャが、位置的または意味的なメカニズムを使ってどのように学習できるかを実験的に示す。
- 参考スコア(独自算出の注目度): 20.83573496458023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how a dot-product attention layer learns a positional
attention matrix (with tokens attending to each other based on their respective
positions) and a semantic attention matrix (with tokens attending to each other
based on their meaning). For an algorithmic task, we experimentally show how
the same simple architecture can learn to implement a solution using either the
positional or semantic mechanism. On the theoretical side, we study the
learning of a non-linear self-attention layer with trainable tied and low-rank
query and key matrices. In the asymptotic limit of high-dimensional data and a
comparably large number of training samples, we provide a closed-form
characterization of the global minimum of the non-convex empirical loss
landscape. We show that this minimum corresponds to either a positional or a
semantic mechanism and evidence an emergent phase transition from the former to
the latter with increasing sample complexity. Finally, we compare the
dot-product attention layer to linear positional baseline, and show that it
outperforms the latter using the semantic mechanism provided it has access to
sufficient data.
- Abstract(参考訳): 点製品注目層が位置注意行列(それぞれの位置に基づいてトークンが互いに結合する)と意味注意行列(その意味に基づいて相互に結合するトークンを含む)をどのように学習するかを検討する。
アルゴリズム的なタスクの場合、同じ単純なアーキテクチャが位置的あるいは意味的メカニズムを使ってどのようにソリューションを実装するかを実験的に示します。
理論的には,学習可能な結合・低ランク問合せとキー行列を持つ非線形セルフアテンション層の学習について検討する。
高次元データの漸近的限界と膨大なトレーニングサンプルについて,非凸経験的損失景観における大域的最小値の閉形式的特徴付けを述べる。
この最小限は位置的または意味的なメカニズムのいずれかに対応し、サンプルの複雑さが増大する前者から後者への初期相転移を示す。
最後に,dot-product attention層を線形位置ベースラインと比較し,十分なデータにアクセス可能な意味的メカニズムを用いて,後者よりも優れていることを示す。
関連論文リスト
- Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。
我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。
我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T15:12:14Z) - Linear Noise Approximation Assisted Bayesian Inference on Mechanistic Model of Partially Observed Stochastic Reaction Network [2.325005809983534]
本稿では、部分的に観察された酵素反応ネットワーク(SRN)に対する効率的なベイズ推論手法を開発する。
線形雑音近似(LNA)メタモデルを提案する。
マルコフ・チェイン・モンテカルロの収束を高速化するために、導出確率の勾配を利用して効率的な後方サンプリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-05T01:54:21Z) - On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文 参考訳(メタデータ) (2023-10-19T12:18:24Z) - Unsupervised and supervised learning of interacting topological phases
from single-particle correlation functions [0.0]
本研究では、教師なしおよび教師なしの機械学習技術が、解決可能なモデルのデータに基づいて訓練された場合、正確には解決不可能なモデルのフェーズを予測することができることを示す。
特に,非相互作用量子ワイヤの単一粒子相関関数を用いたトレーニングセットを用いる。
非相互作用モデルのデータに基づいてトレーニングされた主成分分析と畳み込みニューラルネットワークの両方が、相互作用モデルの位相位相を高い精度で識別できることを示す。
論文 参考訳(メタデータ) (2022-02-18T16:02:29Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - On the Dynamics of Training Attention Models [30.85940880569692]
勾配勾配勾配を用いた簡単な注意に基づく分類モデルの訓練の力学について検討する。
我々は、注意出力が線形分類器によって分類される場合、訓練は識別語への参加に収束しなければならないことを証明した。
論文 参考訳(メタデータ) (2020-11-19T18:55:30Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。