論文の概要: Understanding Attention in Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2108.11574v1
- Date: Thu, 26 Aug 2021 04:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 23:17:38.368332
- Title: Understanding Attention in Machine Reading Comprehension
- Title(参考訳): 機械読解における注意の理解
- Authors: Yiming Cui, Wei-Nan Zhang, Wanxiang Che, Ting Liu, Zhigang Chen
- Abstract要約: 本稿では,多面的自己意識と最終的なパフォーマンスとの関係を検討するために,一連の分析実験を実施することに焦点を当てる。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つのスパン抽出MCCデータセットについて検討した。
本研究は, 問合せ及び問合せに対する注意が最重要であり, 最終結果と強い相関関係を示すものであることを明らかにする。
- 参考スコア(独自算出の注目度): 56.72165932439117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-level performance on some of Machine Reading Comprehension
(MRC) datasets is no longer challenging with the help of powerful Pre-trained
Language Models (PLMs). However, the internal mechanism of these artifacts
still remains unclear, placing an obstacle for further understanding these
models. This paper focuses on conducting a series of analytical experiments to
examine the relations between the multi-head self-attention and the final
performance, trying to analyze the potential explainability in PLM-based MRC
models. We perform quantitative analyses on SQuAD (English) and CMRC 2018
(Chinese), two span-extraction MRC datasets, on top of BERT, ALBERT, and
ELECTRA in various aspects. We discover that {\em passage-to-question} and {\em
passage understanding} attentions are the most important ones, showing strong
correlations to the final performance than other parts. Through visualizations
and case studies, we also observe several general findings on the attention
maps, which could be helpful to understand how these models solve the
questions.
- Abstract(参考訳): Machine Reading Comprehension(MRC)データセットの一部で人間レベルのパフォーマンスを達成することは、強力な事前学習言語モデル(PLM)の助けを借りて、もはや困難ではない。
しかし、これらのアーティファクトの内部メカニズムはまだ不明であり、これらのモデルをさらに理解するための障害となっている。
本稿では,plmに基づくmrcモデルの潜在的な説明可能性を分析するため,マルチヘッド自己着脱と最終性能の関係を検討するために,一連の分析実験を行う。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つの分散抽出MCCデータセットを様々な側面で分析した。
注意力は最も重要であり,他の部分に比べて最終結果と強い相関関係がみられた。
可視化やケーススタディを通じて、注意マップのいくつかの一般的な発見を観察し、これらのモデルがどのように問題を解くかを理解するのに役立つかもしれない。
関連論文リスト
- Exploring Translation Mechanism of Large Language Models [23.681179949587396]
大規模言語モデル(LLM)は多言語翻訳タスクにおいて著しく成功している。
本研究では,計算成分の観点から,LLMの翻訳機構について検討する。
論文 参考訳(メタデータ) (2025-02-17T13:50:29Z) - Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - A Critical Assessment of Interpretable and Explainable Machine Learning for Intrusion Detection [0.0]
本稿では,過度に複雑で不透明なMLモデル,不均衡なデータと相関した特徴,異なる説明法における不整合な影響特徴,そして説明の不可能な有用性について検討する。
具体的には、Deep Neural Networksのような複雑な不透明モデルを避け、代わりにDecision Treesのような解釈可能なMLモデルを使用することを推奨する。
機能ベースのモデル説明は、多くの場合、異なる設定で矛盾している。
論文 参考訳(メタデータ) (2024-07-04T15:35:42Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。