論文の概要: A Probabilistic Interpretation of Transformers
- arxiv url: http://arxiv.org/abs/2205.01080v1
- Date: Thu, 28 Apr 2022 23:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 16:09:40.612433
- Title: A Probabilistic Interpretation of Transformers
- Title(参考訳): 変圧器の確率論的解釈
- Authors: Alexander Shim
- Abstract要約: 本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a probabilistic interpretation of exponential dot product
attention of transformers and contrastive learning based off of exponential
families. The attention sublayer of transformers is equivalent to a gradient
ascent step of the log normalizer, which is the log-sum-exp term in the
Hopfield theory of attention. This ascent step induces a parallel expansion of
points, which is counterbalanced by a contraction from layer normalization. We
also state theoretical limitations of our theory and the Hopfield theory and
suggest directions for resolution.
- Abstract(参考訳): 本稿では,指数関数系に基づく変圧器の指数ドット積注意の確率論的解釈と対比学習を提案する。
変圧器のアテンション部分層は、ホップフィールド注意理論のlog-sum-exp項である対数正規化器の勾配上昇ステップと等価である。
この上昇ステップは点の平行展開を誘導し、これは層正規化からの収縮によって相反する。
また、我々の理論とホップフィールド理論の理論的制限を述べ、分解の方向性を提案する。
関連論文リスト
- Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。
モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。
本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Entanglement Transitions from Stochastic Resetting of Non-Hermitian
Quasiparticles [0.0]
エンタングルメントエントロピーの統計量に対する更新式を書き、準粒子崩壊率のスペクトルによって異なるエンタングルメントスケーリングが起こり、さらには急激なエンタングルメント相転移が起こることを示した。
量子ジャンプによって横磁化を測定する量子イジングチェーンに適用した場合、この理論はエンタングルメントの対数的スケーリング、領域法相、およびそれらの間の連続相転移を伴う臨界相を予測し、遷移点における正方根として有効中心電荷が消滅する。
論文 参考訳(メタデータ) (2021-11-05T13:38:04Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - The Convolution Exponential and Generalized Sylvester Flows [82.18442368078804]
本稿では,線形変換の指数関数を取り入れ,線形フローを構築する新しい手法を提案する。
重要な洞察として、指数関数は暗黙的に計算できるため、畳み込み層を使用することができる。
畳み込み指数はCIFAR10上の生成フローにおいて他の線形変換よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-02T19:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。