論文の概要: Probing for Bridging Inference in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2104.09400v1
- Date: Mon, 19 Apr 2021 15:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 17:50:22.098891
- Title: Probing for Bridging Inference in Transformer Language Models
- Title(参考訳): トランスフォーマー言語モデルにおけるブリッジング推論の探索
- Authors: Onkar Pandit and Yufang Hou
- Abstract要約: 私達は最初にBERTの個々の注意の頭部を調査し、より高い層の注意の頭部が橋渡しの関係に顕著な焦点を合わせることを観察します。
我々は,anaphora分解能をマスキングトークン予測タスクとして定式化するアプローチにおいて,言語モデル全体を考察する。
提案手法は,事前学習された言語モデルがブリッジング推論を実質的に捉えていることを示す。
- 参考スコア(独自算出の注目度): 15.216901057561428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We probe pre-trained transformer language models for bridging inference. We
first investigate individual attention heads in BERT and observe that attention
heads at higher layers prominently focus on bridging relations in-comparison
with the lower and middle layers, also, few specific attention heads
concentrate consistently on bridging. More importantly, we consider language
models as a whole in our second approach where bridging anaphora resolution is
formulated as a masked token prediction task (Of-Cloze test). Our formulation
produces optimistic results without any fine-tuning, which indicates that
pre-trained language models substantially capture bridging inference. Our
further investigation shows that the distance between anaphor-antecedent and
the context provided to language models play an important role in the
inference.
- Abstract(参考訳): 我々はブリッジング推論のための事前訓練されたトランスフォーマー言語モデルを探索する。
まず、BERTにおける個々の注目ヘッドを調査し、上位層における注目ヘッドが、下層と中層とのブリッジ関係に顕著に焦点を合わせているのを観察する。
さらに重要なのは,anaphora分解能をマスキングトークン予測タスク(クローズテスト)として定式化する,第2のアプローチでは,言語モデル全体を考慮している点です。
提案手法は,事前学習された言語モデルがブリッジング推論を実質的に捉えていることを示す。
本研究は, 言語モデルにおいて, アナプホル・アンセシタントと文脈との間の距離が重要な役割を担っていることを示す。
関連論文リスト
- Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - MiQA: A Benchmark for Inference on Metaphorical Questions [5.32836690371986]
本稿では,従来のメタファを用いた大規模言語モデルの推論能力を評価するためのベンチマークを提案する。
本稿では,バイナリ選択タスクにおける最先端の事前学習モデルの性能について検討する。
論文 参考訳(メタデータ) (2022-10-14T17:46:05Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Using Pre-Trained Language Models for Producing Counter Narratives
Against Hate Speech: a Comparative Study [17.338923885534193]
本稿では,CN自動生成作業における事前学習言語モデルの利用に関する広範な研究を行う。
まず、CNを生成するのに最適な特定の言語モデル(またはLMのクラス)と特定の復号機構が存在するかどうかを比較検討する。
自動回帰モデルとデコードを組み合わせることが、最も有望であることを示している。
論文 参考訳(メタデータ) (2022-04-04T12:44:47Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。