論文の概要: An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models
- arxiv url: http://arxiv.org/abs/2212.14852v3
- Date: Mon, 1 Apr 2024 03:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 14:11:24.372930
- Title: An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models
- Title(参考訳): 交換性レンズと潜時変動モデルによる注意の分析
- Authors: Yufeng Zhang, Boyi Liu, Qi Cai, Lingxiao Wang, Zhaoran Wang,
- Abstract要約: 入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
- 参考スコア(独自算出の注目度): 64.87562101662952
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the attention mechanism, transformers achieve significant empirical successes. Despite the intuitive understanding that transformers perform relational inference over long sequences to produce desirable representations, we lack a rigorous theory on how the attention mechanism achieves it. In particular, several intriguing questions remain open: (a) What makes a desirable representation? (b) How does the attention mechanism infer the desirable representation within the forward pass? (c) How does a pretraining procedure learn to infer the desirable representation through the backward pass? We observe that, as is the case in BERT and ViT, input tokens are often exchangeable since they already include positional encodings. The notion of exchangeability induces a latent variable model that is invariant to input sizes, which enables our theoretical analysis. - To answer (a) on representation, we establish the existence of a sufficient and minimal representation of input tokens. In particular, such a representation instantiates the posterior distribution of the latent variable given input tokens, which plays a central role in predicting output labels and solving downstream tasks. - To answer (b) on inference, we prove that attention with the desired parameter infers the latent posterior up to an approximation error, which is decreasing in input sizes. In detail, we quantify how attention approximates the conditional mean of the value given the key, which characterizes how it performs relational inference over long sequences. - To answer (c) on learning, we prove that both supervised and self-supervised objectives allow empirical risk minimization to learn the desired parameter up to a generalization error, which is independent of input sizes. Particularly, in the self-supervised setting, we identify a condition number that is pivotal to solving downstream tasks.
- Abstract(参考訳): 注意機構により、トランスフォーマーは重要な経験的成功を達成する。
変換器が望ましい表現を生成するために長い列に対して関係推論を行うという直感的な理解にもかかわらず、注意機構がそれをどのように達成するかという厳密な理論は欠如している。
特に興味深い疑問がいくつか残っている。
(a)望ましい表現は何か。
b)フォワードパス内の望ましい表現をどのように推測するか。
(c) 事前訓練の手順は、後進パスを通して望ましい表現を推測するためにどのように学習されるか。
BERT や ViT の場合と同様に、入力トークンは位置エンコーディングを含むため、しばしば交換可能である。
交換可能性の概念は、入力サイズに不変な潜在変数モデルを誘導し、理論的解析を可能にする。
-答える
a) 表現において、入力トークンの十分かつ最小限の表現の存在を確立する。
特に、そのような表現は、出力ラベルの予測や下流タスクの解決において中心的な役割を果たす潜在変数の入力トークンの後方分布をインスタンス化する。
-答える
(b) 推定において, 所望パラメータに対する注意が, 入力サイズが減少している近似誤差まで遅延後部を推定することを証明する。
より詳しくは、キーが与えられた値の条件平均をどのように近似するかを定量化し、長い列に対して関係推論を行う方法を示す。
-答える
(c) 学習において, 教師付き目標と自己監督型目標の両方が, 経験的リスク最小化によって, 入力サイズに依存しない一般化誤差まで, 所望のパラメータを学習できることを示す。
特に、自己教師型設定では、下流タスクの解決に重要な条件番号を識別する。
関連論文リスト
- Identifiable Representation and Model Learning for Latent Dynamic Systems [0.0]
本稿では,潜在力学系における表現とモデル学習の問題について検討する。
線形あるいはアフィン非線形潜在力学系に対して、スケーリングまでの表現を同定し、いくつかの単純な変換までモデルを決定できることを証明した。
論文 参考訳(メタデータ) (2024-10-23T13:55:42Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks [29.764014766305174]
事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
論文 参考訳(メタデータ) (2023-05-26T15:49:43Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。