論文の概要: Towards Understanding Inductive Bias in Transformers: A View From Infinity
- arxiv url: http://arxiv.org/abs/2402.05173v2
- Date: Tue, 28 May 2024 13:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 03:28:21.402524
- Title: Towards Understanding Inductive Bias in Transformers: A View From Infinity
- Title(参考訳): 変圧器におけるインダクティブバイアスの理解に向けて:インフィニティの視点から
- Authors: Itay Lavie, Guy Gur-Ari, Zohar Ringel,
- Abstract要約: 変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
- 参考スコア(独自算出の注目度): 9.00214539845063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study inductive bias in Transformers in the infinitely over-parameterized Gaussian process limit and argue transformers tend to be biased towards more permutation symmetric functions in sequence space. We show that the representation theory of the symmetric group can be used to give quantitative analytical predictions when the dataset is symmetric to permutations between tokens. We present a simplified transformer block and solve the model at the limit, including accurate predictions for the learning curves and network outputs. We show that in common setups, one can derive tight bounds in the form of a scaling law for the learnability as a function of the context length. Finally, we argue WikiText dataset, does indeed possess a degree of permutation symmetry.
- Abstract(参考訳): 無限に過度にパラメータ化されたガウス過程の極限における変圧器の帰納バイアスについて検討し、変圧器は列空間のより置換対称関数に偏りを持つ傾向があると主張している。
対称群の表現論は、データセットがトークン間の置換に対称であるときに定量的な解析的予測を与えることができることを示す。
本稿では,学習曲線とネットワーク出力の正確な予測を含む,簡易な変圧器ブロックを提案し,その限界でモデルを解く。
一般的な設定では、文脈長の関数として学習可能性のスケーリング法則の形で厳密な境界を導出できることが示される。
最後に、WikiTextデータセットは、実際に置換対称性の程度を持っていると論じる。
関連論文リスト
- Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Permutation-invariant quantum circuits [4.900041609957432]
置換対称性を量子回路への最も制限的な離散対称性として示す。
パラメータ数のスケーリングは$mathcalO(n3)$で、一般の場合よりもかなり低い。
論文 参考訳(メタデータ) (2023-12-22T18:42:48Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Sampled Transformer for Point Sets [80.66097006145999]
スパース変換器は、連続列列列関数の普遍近似器でありながら、自己アテンション層の計算複雑性を$O(n)$に下げることができる。
我々は、追加の帰納バイアスを伴わずに点集合要素を直接処理できる$O(n)$複雑性サンプリング変換器を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:38:05Z) - Generative Adversarial Symmetry Discovery [19.098785309131458]
リーGANは対称性を解釈可能なリー代数基底として表現し、様々な対称性を発見できる。
学習された対称性は、予測の精度と一般化を改善するために、既存の同変ニューラルネットワークで容易に利用することができる。
論文 参考訳(メタデータ) (2023-02-01T04:28:36Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - Learning Symmetric Embeddings for Equivariant World Models [9.781637768189158]
入力空間(例えば画像)を符号化する学習対称埋め込みネットワーク(SEN)を提案する。
このネットワークは、同変のタスクネットワークでエンドツーエンドにトレーニングして、明示的に対称な表現を学ぶことができる。
実験により、SENは複素対称性表現を持つデータへの同変ネットワークの適用を促進することを示した。
論文 参考訳(メタデータ) (2022-04-24T22:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。