論文の概要: A phase transition between positional and semantic learning in a solvable model of dot-product attention
- arxiv url: http://arxiv.org/abs/2402.03902v2
- Date: Tue, 15 Oct 2024 19:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:32.250368
- Title: A phase transition between positional and semantic learning in a solvable model of dot-product attention
- Title(参考訳): ドット積注意の解答モデルにおける位置学習と意味学習の相転移
- Authors: Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová,
- Abstract要約: 学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
- 参考スコア(独自算出の注目度): 30.96921029675713
- License:
- Abstract: Many empirical studies have provided evidence for the emergence of algorithmic mechanisms (abilities) in the learning of language models, that lead to qualitative improvements of the model capabilities. Yet, a theoretical characterization of how such mechanisms emerge remains elusive. In this paper, we take a step in this direction by providing a tight theoretical analysis of the emergence of semantic attention in a solvable model of dot-product attention. More precisely, we consider a non-linear self-attention layer with trainable tied and low-rank query and key matrices. In the asymptotic limit of high-dimensional data and a comparably large number of training samples we provide a tight closed-form characterization of the global minimum of the non-convex empirical loss landscape. We show that this minimum corresponds to either a positional attention mechanism (with tokens attending to each other based on their respective positions) or a semantic attention mechanism (with tokens attending to each other based on their meaning), and evidence an emergent phase transition from the former to the latter with increasing sample complexity. Finally, we compare the dot-product attention layer to a linear positional baseline, and show that it outperforms the latter using the semantic mechanism provided it has access to sufficient data.
- Abstract(参考訳): 多くの実証的研究は、言語モデルの学習におけるアルゴリズム機構(能力)の出現を証明し、モデルの能力の質的な改善につながった。
しかし、そのようなメカニズムがどのように出現するかという理論的特徴はいまだ解明されていない。
本稿では,ドット積注意の解答可能なモデルにおいて,意味的注意の出現に関する厳密な理論的解析を行うことにより,この方向への一歩を踏み出す。
より正確には、トレーニング可能な結び付きクエリと低ランククエリとキー行列を備えた非線形自己アテンション層を考える。
高次元データの漸近限界と比較可能な数のトレーニングサンプルでは、非凸な経験的損失景観の大域的最小値の厳密な閉形式的特徴を与える。
この最小限は、位置的注意機構(それぞれの位置に基づいてトークンが参加する)と意味的注意機構(それぞれの意味に基づいてトークンが参加する)のいずれかに対応しており、サンプルの複雑さが増すにつれて、前者から後者への急激な位相遷移が証拠となる。
最後に,ドット積アテンション層を線形位置ベースラインと比較し,十分なデータにアクセスできた場合のセマンティックメカニズムを用いて,後者よりも優れていることを示す。
関連論文リスト
- Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。
我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。
我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T15:12:14Z) - Linear Noise Approximation Assisted Bayesian Inference on Mechanistic Model of Partially Observed Stochastic Reaction Network [2.325005809983534]
本稿では、部分的に観察された酵素反応ネットワーク(SRN)に対する効率的なベイズ推論手法を開発する。
線形雑音近似(LNA)メタモデルを提案する。
マルコフ・チェイン・モンテカルロの収束を高速化するために、導出確率の勾配を利用して効率的な後方サンプリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-05T01:54:21Z) - On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文 参考訳(メタデータ) (2023-10-19T12:18:24Z) - Unsupervised and supervised learning of interacting topological phases
from single-particle correlation functions [0.0]
本研究では、教師なしおよび教師なしの機械学習技術が、解決可能なモデルのデータに基づいて訓練された場合、正確には解決不可能なモデルのフェーズを予測することができることを示す。
特に,非相互作用量子ワイヤの単一粒子相関関数を用いたトレーニングセットを用いる。
非相互作用モデルのデータに基づいてトレーニングされた主成分分析と畳み込みニューラルネットワークの両方が、相互作用モデルの位相位相を高い精度で識別できることを示す。
論文 参考訳(メタデータ) (2022-02-18T16:02:29Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z) - On the Dynamics of Training Attention Models [30.85940880569692]
勾配勾配勾配を用いた簡単な注意に基づく分類モデルの訓練の力学について検討する。
我々は、注意出力が線形分類器によって分類される場合、訓練は識別語への参加に収束しなければならないことを証明した。
論文 参考訳(メタデータ) (2020-11-19T18:55:30Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。