論文の概要: Is logical analysis performed by transformers taking place in self-attention or in the fully connected part?
- arxiv url: http://arxiv.org/abs/2501.11765v1
- Date: Mon, 20 Jan 2025 21:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:28.742882
- Title: Is logical analysis performed by transformers taking place in self-attention or in the fully connected part?
- Title(参考訳): 変圧器による論理解析は自己注意や完全連結部分で行われるか?
- Authors: Evgeniy Shin, Heinrich Matzinger,
- Abstract要約: トランスフォーマーアーキテクチャは、完全に接続されたレイヤの前に、ベクトルとして表されるトークンに自己アテンションを適用する。
また, 論理的分析は, 自己意識内でも行うことができることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformers architecture apply self-attention to tokens represented as vectors, before a fully connected (neuronal network) layer. These two parts can be layered many times. Traditionally, self-attention is seen as a mechanism for aggregating information before logical operations are performed by the fully connected layer. In this paper, we show, that quite counter-intuitively, the logical analysis can also be performed within the self-attention. For this we implement a handcrafted single-level encoder layer which performs the logical analysis within self-attention. We then study the scenario in which a one-level transformer model undergoes self-learning using gradient descent. We investigate whether the model utilizes fully connected layers or self-attention mechanisms for logical analysis when it has the choice. Given that gradient descent can become stuck at undesired zeros, we explicitly calculate these unwanted zeros and find ways to avoid them. We do all this in the context of predicting grammatical category pairs of adjacent tokens in a text. We believe that our findings have broader implications for understanding the potential logical operations performed by self-attention.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、完全に接続された(ニューロンネットワーク)レイヤの前に、ベクトルとして表現されるトークンに自己アテンションを適用する。
この2つの部分は何度も重ねることができる。
伝統的に、自己注意は、完全に接続された層によって論理的操作が行われる前に情報を集約するメカニズムと見なされる。
本稿では,論理的分析を自己意識内でも行うことができることを示す。
そこで我々は,手作りのシングルレベルエンコーダ層を実装し,自己意識内で論理解析を行う。
次に,一階変圧器モデルが勾配降下を用いた自己学習を行うシナリオについて検討する。
モデルが完全に連結された層や自己認識機構を利用して論理解析を行うかを検討する。
勾配降下が望ましくない零点で立ち往生することを考えると、これらの望ましくない零点を明示的に計算し、それらを避ける方法を見つける。
テキスト内の隣接するトークンの文法的カテゴリペアを予測するというコンテキストにおいて、これらすべてを行う。
本研究は, 自己注意による潜在的論理的操作を理解する上で, より広範な意味を持つと考えられる。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Causal Interpretation of Self-Attention in Pre-Trained Transformers [4.419843514606336]
本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。
シンボルの入力シーケンスに対する構造方程式モデルを推定するメカニズムとして自己アテンションを用いる。
本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。
論文 参考訳(メタデータ) (2023-10-31T09:27:12Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Analyzing Transformer Dynamics as Movement through Embedding Space [0.0]
本稿では,トランスフォーマーをベースとした言語モデルが,自然言語理解などの知的行動を示す方法について考察する。
埋め込み空間を通した動きとしてフレーミングトランスフォーマーダイナミクスを提案する。
論文 参考訳(メタデータ) (2023-08-21T17:21:23Z) - Scan and Snap: Understanding Training Dynamics and Token Composition in
1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。
我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。
自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文 参考訳(メタデータ) (2023-05-25T15:59:13Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Logiformer: A Two-Branch Graph Transformer Network for Interpretable
Logical Reasoning [10.716971124214332]
テキストの論理的推論に2分岐グラフ変換器ネットワークを利用するエンドツーエンドモデルLogiformerを提案する。
テキストを2つの論理単位に分割し,それぞれ論理グラフと構文グラフを構築する。
推論プロセスは、人間の認知と整合した論理単位を用いることで解釈可能性を提供する。
論文 参考訳(メタデータ) (2022-05-02T08:34:59Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。