論文の概要: A phase transition between positional and semantic learning in a
solvable model of dot-product attention
- arxiv url: http://arxiv.org/abs/2402.03902v1
- Date: Tue, 6 Feb 2024 11:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:19:21.674916
- Title: A phase transition between positional and semantic learning in a
solvable model of dot-product attention
- Title(参考訳): 点製品注意の可解モデルにおける位置学習と意味学習の相転移
- Authors: Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborov\'a
- Abstract要約: 点積注意層が位置注意行列と意味注意行列をいかに学習するかを示す。
アルゴリズム的なタスクに対して、同じ単純なアーキテクチャが、位置的または意味的なメカニズムを使ってどのように学習できるかを実験的に示す。
- 参考スコア(独自算出の注目度): 20.83573496458023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how a dot-product attention layer learns a positional
attention matrix (with tokens attending to each other based on their respective
positions) and a semantic attention matrix (with tokens attending to each other
based on their meaning). For an algorithmic task, we experimentally show how
the same simple architecture can learn to implement a solution using either the
positional or semantic mechanism. On the theoretical side, we study the
learning of a non-linear self-attention layer with trainable tied and low-rank
query and key matrices. In the asymptotic limit of high-dimensional data and a
comparably large number of training samples, we provide a closed-form
characterization of the global minimum of the non-convex empirical loss
landscape. We show that this minimum corresponds to either a positional or a
semantic mechanism and evidence an emergent phase transition from the former to
the latter with increasing sample complexity. Finally, we compare the
dot-product attention layer to linear positional baseline, and show that it
outperforms the latter using the semantic mechanism provided it has access to
sufficient data.
- Abstract(参考訳): 点製品注目層が位置注意行列(それぞれの位置に基づいてトークンが互いに結合する)と意味注意行列(その意味に基づいて相互に結合するトークンを含む)をどのように学習するかを検討する。
アルゴリズム的なタスクの場合、同じ単純なアーキテクチャが位置的あるいは意味的メカニズムを使ってどのようにソリューションを実装するかを実験的に示します。
理論的には,学習可能な結合・低ランク問合せとキー行列を持つ非線形セルフアテンション層の学習について検討する。
高次元データの漸近的限界と膨大なトレーニングサンプルについて,非凸経験的損失景観における大域的最小値の閉形式的特徴付けを述べる。
この最小限は位置的または意味的なメカニズムのいずれかに対応し、サンプルの複雑さが増大する前者から後者への初期相転移を示す。
最後に,dot-product attention層を線形位置ベースラインと比較し,十分なデータにアクセス可能な意味的メカニズムを用いて,後者よりも優れていることを示す。
関連論文リスト
- Bayesian Inference of Transition Matrices from Incomplete Graph Data
with a Topological Prior [1.2891210250935143]
本研究では, 繰り返し相互作用とトポロジカルなトポロジカルな手法を用いて解析的に抽出可能なベイズ法を導出し, 遷移行列をデータ効率よく推論する。
トポロジカル制約の知識が部分的である場合においても, 高い精度で遷移確率を回復し, 頑健であることを示す。
論文 参考訳(メタデータ) (2022-10-27T13:17:47Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - A learning algorithm with emergent scaling behavior for classifying
phase transitions [0.0]
本研究では,測定データから重要な現象を研究するための教師付き学習アルゴリズムを提案する。
We test it on the transverse field Ising chain and q=6 Potts model。
本アルゴリズムは, 系の熱力学的位相を正確に同定し, 射影測定からスケーリング挙動を抽出する。
論文 参考訳(メタデータ) (2021-03-29T18:05:27Z) - Provably End-to-end Label-Noise Learning without Anchor Points [118.97592870124937]
本稿では,アンカーポイントを使わずにラベルノイズ学習を実現するためのエンドツーエンドフレームワークを提案する。
提案フレームワークでは,クリーンなクラス後確率が十分に分散している場合,遷移行列を同定できる。
論文 参考訳(メタデータ) (2021-02-04T03:59:37Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Unsupervised phase discovery with deep anomaly detection [0.0]
我々は、自動化された教師なし機械学習を用いてフェーズダイアグラムを探索する方法を実証する。
私たちは、完全に教師なしかつ自動化された方法で、フェーズダイアグラム全体を決定するために、ディープニューラルネットワークを使用します。
提案手法により, 予期せぬ特性を有する超固相と超流動相の相分離領域を明らかにすることができる。
論文 参考訳(メタデータ) (2020-03-22T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。