論文の概要: Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention
- arxiv url: http://arxiv.org/abs/2104.12874v1
- Date: Mon, 26 Apr 2021 20:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:32:25.924038
- Title: Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention
- Title(参考訳): トランスフォーマー言語モデルによる文理解における合意現象の計算:類似性に基づく干渉が主観と注意に及ぼす影響
- Authors: Soo Hyun Ryu and Richard L. Lewis
- Abstract要約: 主語動詞と反射代名詞一致処理における類似性に基づく干渉効果の説明を進めます。
動詞または反射代名詞の超越性は、非文法文における促進的干渉効果を予測する。
- 参考スコア(独自算出の注目度): 4.103438743479001
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We advance a novel explanation of similarity-based interference effects in
subject-verb and reflexive pronoun agreement processing, grounded in surprisal
values computed from a pretrained large-scale Transformer model, GPT-2.
Specifically, we show that surprisal of the verb or reflexive pronoun predicts
facilitatory interference effects in ungrammatical sentences, where a
distractor noun that matches in number with the verb or pronoun leads to faster
reading times, despite the distractor not participating in the agreement
relation. We review the human empirical evidence for such effects, including
recent meta-analyses and large-scale studies. We also show that attention
patterns (indexed by entropy and other measures) in the Transformer show
patterns of diffuse attention in the presence of similar distractors,
consistent with cue-based retrieval models of parsing. But in contrast to these
models, the attentional cues and memory representations are learned entirely
from the simple self-supervised task of predicting the next word.
- Abstract(参考訳): 我々は,事前訓練された大規模トランスフォーマーモデル GPT-2 から計算した基本値に基づいて,主語動詞と反射的代名詞一致処理における類似性に基づく干渉効果の新たな説明を進めた。
具体的には,動詞や反射的代名詞の代名詞が非文法的な文のファシリテーション的干渉効果を予測することを示し,そこでは,動詞や代名詞と数的に一致した散見子名詞が,合意関係に参加していないにもかかわらず,より高速な読解時間をもたらすことを示す。
近年のメタアナリシスや大規模研究など,人間によるこのような影響の実証的証拠を概観する。
また, トランスフォーマーの注意パターン(エントロピーなどによる評価)は, 類似した注意の分散パターンを示し, 解析の手がかりに基づく検索モデルと一致していることを示した。
しかし、これらのモデルとは対照的に、注意深い手がかりと記憶表現は、次の単語を予測する単純な自己監督タスクから完全に学習される。
関連論文リスト
- If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation? [3.757103053174534]
本研究では,トランスフォーマー文法(TG)の注意機構が,人間の記憶検索の認知モデルとして機能するかどうかを検討する。
実験により,TGの注意力は,バニラ変圧器と比較して,セルフペースト読影時間において優れた予測力を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-17T05:58:25Z) - Weight-based Analysis of Detokenization in Language Models: Understanding the First Stage of Inference Without Inference [30.31106907785379]
モデルの重みを解析することにより,デトケン化段階のいくつかの重要な側面を純粋に理解できることが示されている。
我々の分解は、位置関連、トークン関連、混合効果の相対的寄与を定量化する解釈可能な用語をもたらす。
論文 参考訳(メタデータ) (2025-01-27T03:45:29Z) - Comateformer: Combined Attention Transformer for Semantic Sentence Matching [11.746010399185437]
本稿では,トランスフォーマーモデルに基づくコンバインド・アテンション・ネットワークという新しい意味文マッチングモデルを提案する。
Comateformer モデルでは,構成特性を持つ新しい変圧器を用いた準アテンション機構を設計する。
提案手法は,双対親和性スコアを計算する際の類似性と相似性(負親和性)の直感に基づく。
論文 参考訳(メタデータ) (2024-12-10T06:18:07Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - When to generate hedges in peer-tutoring interactions [1.0466434989449724]
この研究は、自然言語のターン、会話戦略、学習戦略、非言語行動に注釈を付けた、自然主義的な対面データセットを使用している。
その結果、前のターンのセマンティック情報をキャプチャする埋め込み層は、モデルの性能を著しく向上させることがわかった。
教師の視線とタテの視線がヘッジ予測に大きく影響していることが判明した。
論文 参考訳(メタデータ) (2023-07-28T14:29:19Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Probing for Bridging Inference in Transformer Language Models [15.216901057561428]
私達は最初にBERTの個々の注意の頭部を調査し、より高い層の注意の頭部が橋渡しの関係に顕著な焦点を合わせることを観察します。
我々は,anaphora分解能をマスキングトークン予測タスクとして定式化するアプローチにおいて,言語モデル全体を考察する。
提案手法は,事前学習された言語モデルがブリッジング推論を実質的に捉えていることを示す。
論文 参考訳(メタデータ) (2021-04-19T15:42:24Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。