論文の概要: What can a Single Attention Layer Learn? A Study Through the Random
Features Lens
- arxiv url: http://arxiv.org/abs/2307.11353v1
- Date: Fri, 21 Jul 2023 05:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:30:05.058195
- Title: What can a Single Attention Layer Learn? A Study Through the Random
Features Lens
- Title(参考訳): 単一注意層は何を学べるか?
ランダム特徴レンズに関する研究
- Authors: Hengyu Fu, Tianyu Guo, Yu Bai, Song Mei
- Abstract要約: キーベクトル列と個別クエリベクトルを入力として,単一のマルチヘッドアテンション層の学習と一般化について検討する。
このようなランダムな注意層は、鍵ベクトルに不変な置換対象関数の幅広いクラスを表現できることを示す。
- 参考スコア(独自算出の注目度): 27.197540880103325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention layers -- which map a sequence of inputs to a sequence of outputs
-- are core building blocks of the Transformer architecture which has achieved
significant breakthroughs in modern artificial intelligence. This paper
presents a rigorous theoretical study on the learning and generalization of a
single multi-head attention layer, with a sequence of key vectors and a
separate query vector as input. We consider the random feature setting where
the attention layer has a large number of heads, with randomly sampled frozen
query and key matrices, and trainable value matrices. We show that such a
random-feature attention layer can express a broad class of target functions
that are permutation invariant to the key vectors. We further provide
quantitative excess risk bounds for learning these target functions from finite
samples, using random feature attention with finitely many heads.
Our results feature several implications unique to the attention structure
compared with existing random features theory for neural networks, such as (1)
Advantages in the sample complexity over standard two-layer random-feature
networks; (2) Concrete and natural classes of functions that can be learned
efficiently by a random-feature attention layer; and (3) The effect of the
sampling distribution of the query-key weight matrix (the product of the query
and key matrix), where Gaussian random weights with a non-zero mean result in
better sample complexities over the zero-mean counterpart for learning certain
natural target functions. Experiments on simulated data corroborate our
theoretical findings and further illustrate the interplay between the sample
size and the complexity of the target function.
- Abstract(参考訳): 一連の入力を一連の出力にマッピングするアテンション層は、トランスフォーマーアーキテクチャの中核的な構成要素であり、現代の人工知能において大きなブレークスルーを成し遂げた。
本稿では、キーベクトル列と個別クエリベクトルを入力として、単一のマルチヘッドアテンション層の学習と一般化に関する厳密な理論的研究を提案する。
我々は,アテンション層が多数のヘッドを持つランダムな特徴設定について検討し,ランダムにサンプルされた凍結クエリとキー行列,学習可能な値行列について考察する。
このような無作為特徴注意層は、鍵ベクトルに置換不変な対象関数の幅広いクラスを表現することができる。
さらに, 有限個の頭部を持つランダム特徴点に着目し, 有限個のサンプルから対象関数を学習するために, 定量的に過剰なリスク境界を与える。
Our results feature several implications unique to the attention structure compared with existing random features theory for neural networks, such as (1) Advantages in the sample complexity over standard two-layer random-feature networks; (2) Concrete and natural classes of functions that can be learned efficiently by a random-feature attention layer; and (3) The effect of the sampling distribution of the query-key weight matrix (the product of the query and key matrix), where Gaussian random weights with a non-zero mean result in better sample complexities over the zero-mean counterpart for learning certain natural target functions.
シミュレーションデータによる実験は、我々の理論的知見を裏付け、さらに、サンプルサイズとターゲット関数の複雑さの間の相互作用を示す。
関連論文リスト
- A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Going Beyond Neural Network Feature Similarity: The Network Feature
Complexity and Its Interpretation Using Category Theory [64.06519549649495]
機能的に等価な機能と呼ぶものの定義を提供します。
これらの特徴は特定の変換の下で等価な出力を生成する。
反復的特徴マージ(Iterative Feature Merging)というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-10T16:27:12Z) - Learning Active Subspaces and Discovering Important Features with Gaussian Radial Basis Functions Neural Networks [0.0]
モデルの訓練が完了すると抽出できる精度行列のスペクトルに含まれる貴重な情報を示す。
回帰,分類,特徴選択タスクの数値実験を行った。
その結果,提案モデルが競合モデルに比べて魅力的な予測性能が得られるだけでなく,予測性能も向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-11T09:54:30Z) - Deterministic equivalent and error universality of deep random features
learning [4.8461049669050915]
この問題は、広く研究されているランダム特徴モデルのより深いアーキテクチャへの自然な一般化と見なすことができる。
まず,学習者と対象ネットワークが同一の中間層を共有した普遍性リッジ設定において,テストエラーの普遍性を証明し,そのシャープな式を提供する。
第二に、任意の凸損失と一般的な学習/ターゲットアーキテクチャのより一般的な設定において、テストエラーの普遍性を予想する。
論文 参考訳(メタデータ) (2023-02-01T12:37:10Z) - Random Ferns for Semantic Segmentation of PolSAR Images [0.0]
本稿では、Random Fernフレームワークを偏光合成開口レーダのセマンティックセグメンテーションに拡張する。
2つの異なる最適化戦略が提案されている。
実験により、より複雑なランダムフォレストモデルに似た結果が得られることが示された。
論文 参考訳(メタデータ) (2022-02-07T20:22:57Z) - Understanding Interlocking Dynamics of Cooperative Rationalization [90.6863969334526]
選択的合理化(Selective rationalization)は、ニューラルネットワークの出力を予測するのに十分な入力の小さなサブセットを見つけることによって、複雑なニューラルネットワークの予測を説明する。
このような合理化パラダイムでは,モデルインターロックという大きな問題が浮かび上がっている。
A2Rと呼ばれる新しい合理化フレームワークを提案し、アーキテクチャに第3のコンポーネントを導入し、選択とは対照的にソフトアテンションによって駆動される予測器を提案する。
論文 参考訳(メタデータ) (2021-10-26T17:39:18Z) - Inductive Biases and Variable Creation in Self-Attention Mechanisms [25.79946667926312]
この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。
私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。
我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
論文 参考訳(メタデータ) (2021-10-19T16:36:19Z) - Intersection Regularization for Extracting Semantic Attributes [72.53481390411173]
本稿では,ネットワーク抽出した特徴が意味属性のセットと一致するように,教師付き分類の問題を考える。
例えば、鳥類のイメージを種に分類することを学ぶとき、動物学者が鳥類を分類するために使用する特徴の出現を観察したい。
本稿では,複数層パーセプトロン(MLP)と並列決定木を併用した,離散的なトップレベルアクティベーションを持つニューラルネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:44Z) - Probabilistic Simplex Component Analysis [66.30587591100566]
PRISMは、データ循環記述のシンプルさの頂点をデータから識別する確率論的シンプルコンポーネント分析手法である。
この問題には多様な応用があり、最も注目すべきはリモートセンシングにおけるハイパースペクトルアンミックスと機械学習における非負行列分解である。
論文 参考訳(メタデータ) (2021-03-18T05:39:00Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。