論文の概要: Breaking Symmetry When Training Transformers
- arxiv url: http://arxiv.org/abs/2402.05969v2
- Date: Sun, 16 Jun 2024 22:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 06:25:35.764481
- Title: Breaking Symmetry When Training Transformers
- Title(参考訳): 変圧器のトレーニングにおける対称性の破れ
- Authors: Chunsheng Zuo, Michael Guerzhoy,
- Abstract要約: 出力トークン$n+1$のトランスフォーマーアーキテクチャに対して,位置エンコーディングのメカニズムや因果的アテンションの1つを使わずに,入力トークンの置換に不変であることを示す。
我々は、因果接続機構は、トランスフォーマーが順序が重要である入力シーケンスをモデル化できるという事実に責任を負わなければならないという議論を詳しく述べる。
- 参考スコア(独自算出の注目度): 3.434553688053531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As we show in this paper, the prediction for output token $n+1$ of Transformer architectures without one of the mechanisms of positional encodings and causal attention is invariant to permutations of input tokens $1, 2, ..., n-1$. Usually, both mechanisms are employed and the symmetry with respect to the input tokens is broken. Recently, it has been shown that one can train Transformers without positional encodings. This must be enabled by the causal attention mechanism. In this paper, we elaborate on the argument that the causal connection mechanism must be responsible for the fact that Transformers are able to model input sequences where the order is important. Vertical "slices" of Transformers are all encouraged to represent the same location $k$ in the input sequence. We hypothesize that residual connections contribute to this phenomenon, and demonstrate evidence for this.
- Abstract(参考訳): 本稿では,入力トークン1, 2, ..., n-1$の置換に対して,位置エンコーディングと因果注意のメカニズムの1つを使わずに,出力トークン$n+1$のTransformerアーキテクチャの予測を行う。
通常、両方の機構が採用され、入力トークンに対する対称性が損なわれる。
近年,位置符号化なしでトランスフォーマーを訓練できることが示されている。
これは因果的注意機構によって実現されなければならない。
本稿では,変換器が順序が重要な入力シーケンスをモデル化できるという事実に対して,因果接続機構が責任を負うべきであるという議論を詳述する。
Transformerの垂直"スライス"はすべて、入力シーケンスで同じ$k$の場所を表すように推奨されている。
我々は、残余接続がこの現象に寄与し、この現象の証拠を実証する仮説を立てる。
関連論文リスト
- Toward a Theory of Tokenization in LLMs [26.516041872337887]
本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化について検討する。
変換器によって学習された最も単純なユニグラムモデルでさえ、$ktextth$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-04-12T09:01:14Z) - How Transformers Learn Causal Structure with Gradient Descent [49.808194368781095]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - Causal Interpretation of Self-Attention in Pre-Trained Transformers [4.419843514606336]
本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。
シンボルの入力シーケンスに対する構造方程式モデルを推定するメカニズムとして自己アテンションを用いる。
本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。
論文 参考訳(メタデータ) (2023-10-31T09:27:12Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - A Logic for Expressing Log-Precision Transformers [35.25166532364007]
本稿では,任意の対数精度変換器を一階述語論理文として等価に表現できることを示す。
これは、最も厳密な既知の上界であり、対数精度変換器の論理的特徴である。
論文 参考訳(メタデータ) (2022-10-06T04:18:09Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。