論文の概要: Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention
- arxiv url: http://arxiv.org/abs/2104.12874v1
- Date: Mon, 26 Apr 2021 20:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:32:25.924038
- Title: Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention
- Title(参考訳): トランスフォーマー言語モデルによる文理解における合意現象の計算:類似性に基づく干渉が主観と注意に及ぼす影響
- Authors: Soo Hyun Ryu and Richard L. Lewis
- Abstract要約: 主語動詞と反射代名詞一致処理における類似性に基づく干渉効果の説明を進めます。
動詞または反射代名詞の超越性は、非文法文における促進的干渉効果を予測する。
- 参考スコア(独自算出の注目度): 4.103438743479001
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We advance a novel explanation of similarity-based interference effects in
subject-verb and reflexive pronoun agreement processing, grounded in surprisal
values computed from a pretrained large-scale Transformer model, GPT-2.
Specifically, we show that surprisal of the verb or reflexive pronoun predicts
facilitatory interference effects in ungrammatical sentences, where a
distractor noun that matches in number with the verb or pronoun leads to faster
reading times, despite the distractor not participating in the agreement
relation. We review the human empirical evidence for such effects, including
recent meta-analyses and large-scale studies. We also show that attention
patterns (indexed by entropy and other measures) in the Transformer show
patterns of diffuse attention in the presence of similar distractors,
consistent with cue-based retrieval models of parsing. But in contrast to these
models, the attentional cues and memory representations are learned entirely
from the simple self-supervised task of predicting the next word.
- Abstract(参考訳): 我々は,事前訓練された大規模トランスフォーマーモデル GPT-2 から計算した基本値に基づいて,主語動詞と反射的代名詞一致処理における類似性に基づく干渉効果の新たな説明を進めた。
具体的には,動詞や反射的代名詞の代名詞が非文法的な文のファシリテーション的干渉効果を予測することを示し,そこでは,動詞や代名詞と数的に一致した散見子名詞が,合意関係に参加していないにもかかわらず,より高速な読解時間をもたらすことを示す。
近年のメタアナリシスや大規模研究など,人間によるこのような影響の実証的証拠を概観する。
また, トランスフォーマーの注意パターン(エントロピーなどによる評価)は, 類似した注意の分散パターンを示し, 解析の手がかりに基づく検索モデルと一致していることを示した。
しかし、これらのモデルとは対照的に、注意深い手がかりと記憶表現は、次の単語を予測する単純な自己監督タスクから完全に学習される。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - When to generate hedges in peer-tutoring interactions [1.0466434989449724]
この研究は、自然言語のターン、会話戦略、学習戦略、非言語行動に注釈を付けた、自然主義的な対面データセットを使用している。
その結果、前のターンのセマンティック情報をキャプチャする埋め込み層は、モデルの性能を著しく向上させることがわかった。
教師の視線とタテの視線がヘッジ予測に大きく影響していることが判明した。
論文 参考訳(メタデータ) (2023-07-28T14:29:19Z) - An Information-Theoretic Analysis of Self-supervised Discrete
Representations of Speech [17.07957283733822]
我々は,各音韻カテゴリーを離散単位上の分布として表現する情報理論フレームワークを開発した。
本研究は,音素分布のエントロピーが下層の音声の変動を反映していることを示す。
本研究は, 直接・一対一対応の欠如を裏付けるものであるが, 音韻カテゴリーと離散単位との間には, 興味深い, 間接的な関係があることを見出した。
論文 参考訳(メタデータ) (2023-06-04T16:52:11Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Non-Linguistic Supervision for Contrastive Learning of Sentence
Embeddings [14.244787327283335]
文エンコーダとしてのTransformerモデルの性能はマルチモーダルなマルチタスク損失のトレーニングによって改善できる。
非言語的データに対する我々のフレームワークの依存は、言語に依存しないので、英語のNLPを超えて広く適用することができる。
論文 参考訳(メタデータ) (2022-09-20T03:01:45Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Probing for Bridging Inference in Transformer Language Models [15.216901057561428]
私達は最初にBERTの個々の注意の頭部を調査し、より高い層の注意の頭部が橋渡しの関係に顕著な焦点を合わせることを観察します。
我々は,anaphora分解能をマスキングトークン予測タスクとして定式化するアプローチにおいて,言語モデル全体を考察する。
提案手法は,事前学習された言語モデルがブリッジング推論を実質的に捉えていることを示す。
論文 参考訳(メタデータ) (2021-04-19T15:42:24Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning
Models [82.3793660091354]
本稿では,注意を可視化する以外に,注意機構を付加した画像キャプションモデルの予測について分析する。
我々は,注意機構を備えた画像キャプションモデルに適したレイヤワイド関連伝搬(LRP)と勾配に基づく説明法を開発した。
論文 参考訳(メタデータ) (2020-01-04T05:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。