Fugu-MT 論文翻訳(概要): Causal Interpretation of Self-Attention in Pre-Trained Transformers

論文の概要: Causal Interpretation of Self-Attention in Pre-Trained Transformers

arxiv url: http://arxiv.org/abs/2310.20307v1
Date: Tue, 31 Oct 2023 09:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 15:44:51.801533
Title: Causal Interpretation of Self-Attention in Pre-Trained Transformers
Title（参考訳）: 予習変圧器における自己着脱の因果解釈
Authors: Raanan Y. Rohekar, Yaniv Gurwicz, Shami Nisimov
Abstract要約: 本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。シンボルの入力シーケンスに対する構造方程式モデルを推定するメカニズムとして自己アテンションを用いる。本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。
参考スコア（独自算出の注目度）: 4.419843514606336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a causal interpretation of self-attention in the Transformer neural network architecture. We interpret self-attention as a mechanism that estimates a structural equation model for a given input sequence of symbols (tokens). The structural equation model can be interpreted, in turn, as a causal structure over the input symbols under the specific context of the input sequence. Importantly, this interpretation remains valid in the presence of latent confounders. Following this interpretation, we estimate conditional independence relations between input symbols by calculating partial correlations between their corresponding representations in the deepest attention layer. This enables learning the causal structure over an input sequence using existing constraint-based algorithms. In this sense, existing pre-trained Transformers can be utilized for zero-shot causal-discovery. We demonstrate this method by providing causal explanations for the outcomes of Transformers in two tasks: sentiment classification (NLP) and recommendation.
Abstract（参考訳）: 本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。我々は,記号(トークン)の入力列の構造方程式モデルを推定するメカニズムとして自己注意を解釈する。構造方程式モデルは、入力シーケンスの特定のコンテキストの下で入力シンボル上の因果構造として解釈することができる。重要なことに、この解釈は、潜伏した共同ファウンダーの存在下で有効である。この解釈に従い、最も深い注意層における対応する表現間の部分相関を計算し、入力シンボル間の条件独立関係を推定する。これにより、既存の制約ベースのアルゴリズムを用いて入力シーケンス上の因果構造を学習することができる。この意味で、既存のトレーニング済みトランスフォーマーはゼロショット因果発見に利用できる。本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。

関連論文リスト

Comateformer: Combined Attention Transformer for Semantic Sentence Matching [11.746010399185437]
本稿では,トランスフォーマーモデルに基づくコンバインド・アテンション・ネットワークという新しい意味文マッチングモデルを提案する。 Comateformer モデルでは,構成特性を持つ新しい変圧器を用いた準アテンション機構を設計する。提案手法は,双対親和性スコアを計算する際の類似性と相似性(負親和性)の直感に基づく。
論文参考訳（メタデータ） (2024-12-10T06:18:07Z)
Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文参考訳（メタデータ） (2024-10-07T23:53:25Z)
On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning [87.73401758641089]
CoT推論による現代言語モデル(LM)の性能向上 LMは弦上の分布の族を確率的チューリングマシンと同一に表現できることを示す。
論文参考訳（メタデータ） (2024-06-20T10:59:02Z)
Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。記号の配置に非依存であり、それによって表現される意味論にのみ依存する。識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文参考訳（メタデータ） (2024-05-12T22:18:25Z)
How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文参考訳（メタデータ） (2024-02-22T17:47:03Z)
Breaking Symmetry When Training Transformers [3.434553688053531]
出力トークン$n+1$のトランスフォーマーアーキテクチャに対して,位置エンコーディングのメカニズムや因果的アテンションの1つを使わずに,入力トークンの置換に不変であることを示す。我々は、因果接続機構は、トランスフォーマーが順序が重要である入力シーケンスをモデル化できるという事実に責任を負わなければならないという議論を詳しく述べる。
論文参考訳（メタデータ） (2024-02-06T00:32:28Z)
Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models [9.56229382432426]
本研究の目的は、トランスフォーマーモデルをアルゴリズム機能を実装する人間可読表現にリバースエンジニアリングすることである。 GPT-2 SmallとLlama-2-7Bの両方のキーサブ回路を回路解釈可能性解析により同定する。このサブ回路は、インターバル回路、スペイン語の数字と月数継続、自然言語の単語問題など、様々な数学的なプロンプトに影響を及ぼすことを示す。
論文参考訳（メタデータ） (2023-11-07T16:58:51Z)
Characterizing Intrinsic Compositionality in Transformers with Tree Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。 3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文参考訳（メタデータ） (2022-11-02T17:10:07Z)
Do Transformers use variable binding? [14.222494511474103]
ディープニューラルネットワーク(DNN)の説明可能性を高めるには、シンボリック計算を実装するかどうかを評価する必要がある。 1つの中心的なシンボル容量は変数バインディングであり、入力値をシステム内部メモリに保持されている抽象変数にリンクする。本稿では,最先端トランスフォーマーネットワークBERTとRoBERTaの可変結合容量を初めて体系的に評価する。
論文参考訳（メタデータ） (2022-02-19T09:56:38Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
Eigen Analysis of Self-Attention and its Reconstruction from Partial Computation [58.80806716024701]
ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。注意点の変動の大部分は低次元固有空間にあることがわかった。トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
論文参考訳（メタデータ） (2021-06-16T14:38:42Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。