論文の概要: Understanding Attention in Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2108.11574v1
- Date: Thu, 26 Aug 2021 04:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 23:17:38.368332
- Title: Understanding Attention in Machine Reading Comprehension
- Title(参考訳): 機械読解における注意の理解
- Authors: Yiming Cui, Wei-Nan Zhang, Wanxiang Che, Ting Liu, Zhigang Chen
- Abstract要約: 本稿では,多面的自己意識と最終的なパフォーマンスとの関係を検討するために,一連の分析実験を実施することに焦点を当てる。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つのスパン抽出MCCデータセットについて検討した。
本研究は, 問合せ及び問合せに対する注意が最重要であり, 最終結果と強い相関関係を示すものであることを明らかにする。
- 参考スコア(独自算出の注目度): 56.72165932439117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-level performance on some of Machine Reading Comprehension
(MRC) datasets is no longer challenging with the help of powerful Pre-trained
Language Models (PLMs). However, the internal mechanism of these artifacts
still remains unclear, placing an obstacle for further understanding these
models. This paper focuses on conducting a series of analytical experiments to
examine the relations between the multi-head self-attention and the final
performance, trying to analyze the potential explainability in PLM-based MRC
models. We perform quantitative analyses on SQuAD (English) and CMRC 2018
(Chinese), two span-extraction MRC datasets, on top of BERT, ALBERT, and
ELECTRA in various aspects. We discover that {\em passage-to-question} and {\em
passage understanding} attentions are the most important ones, showing strong
correlations to the final performance than other parts. Through visualizations
and case studies, we also observe several general findings on the attention
maps, which could be helpful to understand how these models solve the
questions.
- Abstract(参考訳): Machine Reading Comprehension(MRC)データセットの一部で人間レベルのパフォーマンスを達成することは、強力な事前学習言語モデル(PLM)の助けを借りて、もはや困難ではない。
しかし、これらのアーティファクトの内部メカニズムはまだ不明であり、これらのモデルをさらに理解するための障害となっている。
本稿では,plmに基づくmrcモデルの潜在的な説明可能性を分析するため,マルチヘッド自己着脱と最終性能の関係を検討するために,一連の分析実験を行う。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つの分散抽出MCCデータセットを様々な側面で分析した。
注意力は最も重要であり,他の部分に比べて最終結果と強い相関関係がみられた。
可視化やケーススタディを通じて、注意マップのいくつかの一般的な発見を観察し、これらのモデルがどのように問題を解くかを理解するのに役立つかもしれない。
関連論文リスト
- A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Probing Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワークやマルチヘッド・セルフアテンションなどの予測プロセスと内部メカニズムの理解は、いまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - A Comprehensive Survey on Multi-hop Machine Reading Comprehension
Datasets and Metrics [0.0]
マルチホップ機械読解は,情報の相違点に基づいて質問に答えることを目的とした課題である。
評価指標とデータセットは、マルチホップMCCにおいて重要な部分である。
本研究の目的は,マルチホップMRC評価指標とデータセットの最近の進歩に関する包括的調査を行うことである。
論文 参考訳(メタデータ) (2022-12-08T04:42:59Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Representational Multiplicity Should Be Exposed, Not Eliminated [27.495944788838457]
トレーニング中に同様のパフォーマンスを持つ2つの機械学習モデルは、現実世界のパフォーマンス特性を非常に異なるものにすることができる。
これは、表現的多重性(RM)として表されるモデルの内部の明確な違いを意味する。
本研究では,RMを解析するための概念的かつ実験的な設定を導入し,特定のトレーニング手法が他の方法よりも系統的にRMを大きくすることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:53:12Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。