論文の概要: An Interpretability Evaluation Benchmark for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2207.13948v1
- Date: Thu, 28 Jul 2022 08:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:22:37.721101
- Title: An Interpretability Evaluation Benchmark for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルの解釈可能性評価ベンチマーク
- Authors: Yaozong Shen, Lijie Wang, Ying Chen, Xinyan Xiao, Jing Liu, Hua Wu
- Abstract要約: 英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
- 参考スコア(独自算出の注目度): 37.16893581395874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While pre-trained language models (LMs) have brought great improvements in
many NLP tasks, there is increasing attention to explore capabilities of LMs
and interpret their predictions. However, existing works usually focus only on
a certain capability with some downstream tasks. There is a lack of datasets
for directly evaluating the masked word prediction performance and the
interpretability of pre-trained LMs. To fill in the gap, we propose a novel
evaluation benchmark providing with both English and Chinese annotated data. It
tests LMs abilities in multiple dimensions, i.e., grammar, semantics,
knowledge, reasoning and computation. In addition, it provides carefully
annotated token-level rationales that satisfy sufficiency and compactness. It
contains perturbed instances for each original instance, so as to use the
rationale consistency under perturbations as the metric for faithfulness, a
perspective of interpretability. We conduct experiments on several widely-used
pre-trained LMs. The results show that they perform very poorly on the
dimensions of knowledge and computation. And their plausibility in all
dimensions is far from satisfactory, especially when the rationale is short. In
addition, the pre-trained LMs we evaluated are not robust on syntax-aware data.
We will release this evaluation benchmark at \url{http://xyz}, and hope it can
facilitate the research progress of pre-trained LMs.
- Abstract(参考訳): 事前学習された言語モデル(lms)は多くのnlpタスクにおいて大きな改善をもたらしたが、lmsの機能の探求とそれらの予測の解釈に注目が集まっている。
しかしながら、既存の作業は通常、ダウンストリームタスクのある特定の機能にのみフォーカスする。
マスク付き単語予測性能と事前学習したLMの解釈可能性を直接評価するためのデータセットが不足している。
このギャップを埋めるために、英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
さらに、十分性とコンパクト性を満たす、注意深い注釈付きトークンレベルの有理性を提供する。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理的一貫性を、解釈可能性の観点からの忠実性の計量として利用する。
使用済みのlmsについて実験を行った。
以上の結果から,知識と計算の次元が極めて低いことが示唆された。
そして、すべての次元におけるそれらの妥当性は、特に理性が短い場合、満足できない。
さらに、我々が評価した事前学習されたlmsは、構文認識データでは堅牢ではない。
我々は、この評価ベンチマークを \url{http://xyz} でリリースする。
関連論文リスト
- FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。
RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文 参考訳(メタデータ) (2023-06-23T10:18:02Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Evidence > Intuition: Transferability Estimation for Encoder Selection [16.490047604583882]
我々は、全ての候補を微調整することなく、目標タスクにおいてどのLMが最善を尽くすかを予測する定量的な証拠を生成する。
我々は,コンピュータビジョン(CV)のLogME(Logarithm Maximum of Evidence)尺度を採用し,94%のセットアップにおいて,最終的なLM性能と正の相関関係があることを見出した。
論文 参考訳(メタデータ) (2022-10-20T13:25:21Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Evaluating Document Coherence Modelling [37.287725949616934]
英語文侵入検出タスクにおけるプリトレーニング済みLMの広い範囲の性能を検討する。
実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定の大幅な低下を経験することがわかった。
論文 参考訳(メタデータ) (2021-03-18T10:05:06Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。