論文の概要: A phase transition between positional and semantic learning in a solvable model of dot-product attention
- arxiv url: http://arxiv.org/abs/2402.03902v2
- Date: Tue, 15 Oct 2024 19:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:38:32.250368
- Title: A phase transition between positional and semantic learning in a solvable model of dot-product attention
- Title(参考訳): ドット積注意の解答モデルにおける位置学習と意味学習の相転移
- Authors: Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová,
- Abstract要約: 学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
- 参考スコア(独自算出の注目度): 30.96921029675713
- License:
- Abstract: Many empirical studies have provided evidence for the emergence of algorithmic mechanisms (abilities) in the learning of language models, that lead to qualitative improvements of the model capabilities. Yet, a theoretical characterization of how such mechanisms emerge remains elusive. In this paper, we take a step in this direction by providing a tight theoretical analysis of the emergence of semantic attention in a solvable model of dot-product attention. More precisely, we consider a non-linear self-attention layer with trainable tied and low-rank query and key matrices. In the asymptotic limit of high-dimensional data and a comparably large number of training samples we provide a tight closed-form characterization of the global minimum of the non-convex empirical loss landscape. We show that this minimum corresponds to either a positional attention mechanism (with tokens attending to each other based on their respective positions) or a semantic attention mechanism (with tokens attending to each other based on their meaning), and evidence an emergent phase transition from the former to the latter with increasing sample complexity. Finally, we compare the dot-product attention layer to a linear positional baseline, and show that it outperforms the latter using the semantic mechanism provided it has access to sufficient data.
- Abstract(参考訳): 多くの実証的研究は、言語モデルの学習におけるアルゴリズム機構(能力)の出現を証明し、モデルの能力の質的な改善につながった。
しかし、そのようなメカニズムがどのように出現するかという理論的特徴はいまだ解明されていない。
本稿では,ドット積注意の解答可能なモデルにおいて,意味的注意の出現に関する厳密な理論的解析を行うことにより,この方向への一歩を踏み出す。
より正確には、トレーニング可能な結び付きクエリと低ランククエリとキー行列を備えた非線形自己アテンション層を考える。
高次元データの漸近限界と比較可能な数のトレーニングサンプルでは、非凸な経験的損失景観の大域的最小値の厳密な閉形式的特徴を与える。
この最小限は、位置的注意機構(それぞれの位置に基づいてトークンが参加する)と意味的注意機構(それぞれの意味に基づいてトークンが参加する)のいずれかに対応しており、サンプルの複雑さが増すにつれて、前者から後者への急激な位相遷移が証拠となる。
最後に,ドット積アテンション層を線形位置ベースラインと比較し,十分なデータにアクセスできた場合のセマンティックメカニズムを用いて,後者よりも優れていることを示す。
関連論文リスト
- Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion [2.8948274245812335]
行列完備化問題の解法として,行列分解の暗黙的正則化について検討する。
我々は、観測データの接続が暗黙のバイアスにおいて重要な役割を果たすことを経験的に発見する。
我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T15:12:14Z) - Bayesian Inference of Transition Matrices from Incomplete Graph Data
with a Topological Prior [1.2891210250935143]
本研究では, 繰り返し相互作用とトポロジカルなトポロジカルな手法を用いて解析的に抽出可能なベイズ法を導出し, 遷移行列をデータ効率よく推論する。
トポロジカル制約の知識が部分的である場合においても, 高い精度で遷移確率を回復し, 頑健であることを示す。
論文 参考訳(メタデータ) (2022-10-27T13:17:47Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Provably End-to-end Label-Noise Learning without Anchor Points [118.97592870124937]
本稿では,アンカーポイントを使わずにラベルノイズ学習を実現するためのエンドツーエンドフレームワークを提案する。
提案フレームワークでは,クリーンなクラス後確率が十分に分散している場合,遷移行列を同定できる。
論文 参考訳(メタデータ) (2021-02-04T03:59:37Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Unsupervised phase discovery with deep anomaly detection [0.0]
我々は、自動化された教師なし機械学習を用いてフェーズダイアグラムを探索する方法を実証する。
私たちは、完全に教師なしかつ自動化された方法で、フェーズダイアグラム全体を決定するために、ディープニューラルネットワークを使用します。
提案手法により, 予期せぬ特性を有する超固相と超流動相の相分離領域を明らかにすることができる。
論文 参考訳(メタデータ) (2020-03-22T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。