論文の概要: An Analysis of Attention via the Lens of Exchangeability and Latent
Variable Models
- arxiv url: http://arxiv.org/abs/2212.14852v1
- Date: Fri, 30 Dec 2022 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 17:16:50.574964
- Title: An Analysis of Attention via the Lens of Exchangeability and Latent
Variable Models
- Title(参考訳): 交換性レンズと潜在変数モデルによる注意の分析
- Authors: Yufeng Zhang, Boyi Liu, Qi Cai, Lingxiao Wang, Zhaoran Wang
- Abstract要約: 入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
- 参考スコア(独自算出の注目度): 85.71582578730383
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the attention mechanism, transformers achieve significant empirical
successes. Despite the intuitive understanding that transformers perform
relational inference over long sequences to produce desirable representations,
we lack a rigorous theory on how the attention mechanism achieves it. In
particular, several intriguing questions remain open: (a) What makes a
desirable representation? (b) How does the attention mechanism infer the
desirable representation within the forward pass? (c) How does a pretraining
procedure learn to infer the desirable representation through the backward
pass?
We observe that, as is the case in BERT and ViT, input tokens are often
exchangeable since they already include positional encodings. The notion of
exchangeability induces a latent variable model that is invariant to input
sizes, which enables our theoretical analysis.
- To answer (a) on representation, we establish the existence of a sufficient
and minimal representation of input tokens. In particular, such a
representation instantiates the posterior distribution of the latent variable
given input tokens, which plays a central role in predicting output labels and
solving downstream tasks.
- To answer (b) on inference, we prove that attention with the desired
parameter infers the latent posterior up to an approximation error, which is
decreasing in input sizes. In detail, we quantify how attention approximates
the conditional mean of the value given the key, which characterizes how it
performs relational inference over long sequences.
- To answer (c) on learning, we prove that both supervised and
self-supervised objectives allow empirical risk minimization to learn the
desired parameter up to a generalization error, which is independent of input
sizes. Particularly, in the self-supervised setting, we identify a condition
number that is pivotal to solving downstream tasks.
- Abstract(参考訳): 注意機構により、トランスフォーマーは重要な経験的成功を達成する。
トランスフォーマーが長い列に対して関係推論を行い望ましい表現を生成するという直感的な理解にもかかわらず、注意メカニズムがそれを達成するための厳密な理論を欠いている。
特に興味深い疑問がいくつか残っています
(a)何が望ましい表現になるのか?
b) 注意機構は、フォワードパス内の望ましい表現をどうやって推測するのですか?
c) トレーニング前手順は、後ろ向きのパスを通じて望ましい表現を推測するためにどのように学習するか?
BERT や ViT の場合と同様に、入力トークンは位置エンコーディングを含むため、しばしば交換可能である。
交換可能性の概念は入力サイズに不変な潜在変数モデルを誘導し、理論的解析を可能にする。
-答える
(a)表現において、入力トークンの十分かつ最小限の表現の存在を確立する。
特に、そのような表現は、出力ラベルの予測や下流タスクの解決において中心的な役割を果たす潜在変数の入力トークンの後方分布をインスタンス化する。
-答える
(b) 推定において, 所望パラメータに対する注意が, 入力サイズが減少している近似誤差まで遅延後部を推定することを証明する。
具体的には、キーが与えられた値の条件付き平均に注意がどう近似するかを定量化し、長い列のリレーショナル推論を特徴付ける。
-答える
(c) 学習において, 教師付き目標と自己監督型目標の両方が, 経験的リスク最小化によって, 入力サイズに依存しない一般化誤差まで, 所望のパラメータを学習できることを示す。
特に、自己教師付き設定では、下流タスクを解決する上で重要な条件番号を特定する。
関連論文リスト
- Identifiable Representation and Model Learning for Latent Dynamic Systems [0.0]
本稿では,潜在力学系における表現とモデル学習の問題について検討する。
線形あるいはアフィン非線形潜在力学系に対して、スケーリングまでの表現を同定し、いくつかの単純な変換までモデルを決定できることを証明した。
論文 参考訳(メタデータ) (2024-10-23T13:55:42Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - A Mechanism for Sample-Efficient In-Context Learning for Sparse
Retrieval Tasks [29.764014766305174]
事前学習プロセスと下流タスクに対して,適切な仮定でトランスフォーマーモデルがICLを実行可能であることを示す。
本手法は, トランス機構を用いて実装可能であることを確認した。
論文 参考訳(メタデータ) (2023-05-26T15:49:43Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。