論文の概要: Inductive Biases and Variable Creation in Self-Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2110.10090v1
- Date: Tue, 19 Oct 2021 16:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:11:42.722903
- Title: Inductive Biases and Variable Creation in Self-Attention Mechanisms
- Title(参考訳): 自己保持機構における誘導的ビアーゼと可変生成
- Authors: Benjamin L. Edelman, Surbhi Goel, Sham Kakade, Cyril Zhang
- Abstract要約: この研究は自己アテンション加群の帰納バイアスの理論解析を提供する。
私たちの焦点は、どの関数と長距離依存関係を表現したいかを明確に決めることです。
我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している。
- 参考スコア(独自算出の注目度): 25.79946667926312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention, an architectural motif designed to model long-range
interactions in sequential data, has driven numerous recent breakthroughs in
natural language processing and beyond. This work provides a theoretical
analysis of the inductive biases of self-attention modules, where our focus is
to rigorously establish which functions and long-range dependencies
self-attention blocks prefer to represent. Our main result shows that
bounded-norm Transformer layers create sparse variables: they can represent
sparse functions of the input sequence, with sample complexity scaling only
logarithmically with the context length. Furthermore, we propose new
experimental protocols to support this analysis and to guide the practice of
training Transformers, built around the large body of work on provably learning
sparse Boolean functions.
- Abstract(参考訳): シーケンシャルデータにおける長距離インタラクションをモデル化するアーキテクチャモチーフであるSelf-attentionは、自然言語処理などにおける最近のブレークスルーを招いている。
この研究は自己着脱加群の帰納的バイアスの理論的な分析を提供し、我々の焦点はどの関数と長距離依存性の自己着脱ブロックが表現するのを好むかを厳密に確立することである。
我々の主な結果は、有界ノルムトランスフォーマー層がスパース変数を生成することを示している:それらは入力シーケンスのスパース関数を表現でき、サンプル複雑性は、コンテキストの長さで対数的にしかスケーリングできない。
さらに,この分析を支援するための新しい実験プロトコルを提案し,スパースブール関数を確実に学習する大規模作業を中心に構築されたトランスフォーマーの訓練を指導する。
関連論文リスト
- A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Latent Variable Multi-output Gaussian Processes for Hierarchical
Datasets [0.8057006406834466]
多出力ガウス過程(MOGP)は、異なる出力間の相関を利用して複数のタスクに対処するために導入された。
本稿では,階層型データセットのためのMOGPの拡張を提案する。
論文 参考訳(メタデータ) (2023-08-31T15:52:35Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs [13.436770170612295]
本研究では,対話対象の連続時間力学の不確実性を考慮したモデリングを初めて行った。
我々のモデルは、独立力学と信頼性のある不確実性推定との相互作用の両方を推測する。
論文 参考訳(メタデータ) (2022-05-24T08:36:25Z) - Scalable Gaussian Processes for Data-Driven Design using Big Data with
Categorical Factors [14.337297795182181]
ガウス過程(GP)は、大きなデータセット、カテゴリ入力、および複数の応答を調節するのに困難である。
本稿では,変分推論によって得られた潜伏変数と関数を用いて,上記の課題を同時に解決するGPモデルを提案する。
本手法は三元系酸化物材料の機械学習と多スケール対応機構のトポロジー最適化に有用である。
論文 参考訳(メタデータ) (2021-06-26T02:17:23Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。