論文の概要: Evaluating the Faithfulness of Importance Measures in NLP by Recursively
Masking Allegedly Important Tokens and Retraining
- arxiv url: http://arxiv.org/abs/2110.08412v1
- Date: Fri, 15 Oct 2021 23:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 21:14:39.636121
- Title: Evaluating the Faithfulness of Importance Measures in NLP by Recursively
Masking Allegedly Important Tokens and Retraining
- Title(参考訳): 重要知識の反復的マスキングと再訓練によるNLPの重要度対策の忠実度の評価
- Authors: Andreas Madsen, Nicholas Meade, Vaibhav Adlakha, Siva Reddy
- Abstract要約: ROARと呼ばれるコンピュータビジョンから最近提案された忠実度ベンチマークを適応し、改善する。
我々は、一般的なNLP重要度尺度、すなわち注意、勾配、統合勾配にROARを適用して適用する。
本稿では,論文間の結果の比較を容易にするスカラー忠実度尺度を提案する。
- 参考スコア(独自算出の注目度): 6.4191222580895495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To explain NLP models, many methods inform which inputs tokens are important
for a prediction. However, an open question is if these methods accurately
reflect the model's logic, a property often called faithfulness. In this work,
we adapt and improve a recently proposed faithfulness benchmark from computer
vision called ROAR (RemOve And Retrain), by Hooker et al. (2019).
We improve ROAR by recursively removing dataset redundancies, which otherwise
interfere with ROAR. We adapt and apply ROAR, to popular NLP importance
measures, namely attention, gradient, and integrated gradients. Additionally,
we use mutual information as an additional baseline. Evaluation is done on a
suite of classification tasks often used in the faithfulness of attention
literature. Finally, we propose a scalar faithfulness metric, which makes it
easy to compare results across papers.
We find that, importance measures considered to be unfaithful for computer
vision tasks perform favorably for NLP tasks, the faithfulness of an importance
measure is task-dependent, and the computational overhead of integrated
gradient is rarely justified.
- Abstract(参考訳): NLPモデルを説明するために、多くの手法が予測にどの入力トークンが重要であるかを知らせる。
しかし、オープンな疑問は、これらの手法がモデルの論理を正確に反映するかどうかである。
本研究では,HookerらによるROAR(RemOve And Retrain)と呼ばれるコンピュータビジョンから最近提案された忠実度ベンチマークを適応し,改良する。
ROARに干渉するデータセットの冗長性を再帰的に除去することで、ROARを改善する。
我々は、一般的なNLP重要度尺度、すなわち注意、勾配、統合勾配にROARを適用し、適用する。
さらに,追加のベースラインとして相互情報を用いる。
評価は、注意文学の忠実さによく使われる一連の分類タスクに基づいて行われる。
最後に,論文間の結果の比較を容易にするスカラー忠実度尺度を提案する。
我々は,nlpタスクに好適なコンピュータビジョンタスクに対する重要度尺度が好ましくないと考えられること,重要度尺度の忠実性がタスク依存であること,統合勾配の計算オーバーヘッドが正当化されることが滅多にないことを見出した。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Improve Dense Passage Retrieval with Entailment Tuning [22.39221206192245]
検索システムの鍵となるのは、クエリとパスペアの関連スコアを計算することである。
我々は、NLIタスクにおけるエンテーメントの概念と、関連性の主要なクラスが一致していることを観察した。
我々は,高密度レトリバーの埋め込みを改善するために,エンテーメントチューニングと呼ばれる手法を設計する。
論文 参考訳(メタデータ) (2024-10-21T09:18:30Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Navigating the Pitfalls of Active Learning Evaluation: A Systematic
Framework for Meaningful Performance Assessment [3.3064235071867856]
アクティブラーニング(AL)は、ラベルなしデータのプールから最も情報性の高いサンプルをインタラクティブに選択することで、ラベル付けの負担を軽減することを目的としている。
半教師型(Semi-SL)や自己教師型学習(Self-SL)のような新興パラダイムと比較して、ALの有効性を疑問視する研究もある。
論文 参考訳(メタデータ) (2023-01-25T15:07:44Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Locally Aggregated Feature Attribution on Natural Language Model
Understanding [12.233103741197334]
Locally Aggregated Feature Attribution (LAFA) は、NLPモデルのための新しい勾配に基づく特徴属性法である。
あいまいな参照トークンに頼る代わりに、言語モデル埋め込みから派生した類似参照テキストを集約することで勾配を円滑にする。
評価のために、公開データセット上でのエンティティ認識やセンチメント分析を含む異なるNLPタスクの実験も設計する。
論文 参考訳(メタデータ) (2022-04-22T18:59:27Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Robust Representation Learning via Perceptual Similarity Metrics [18.842322467828502]
Contrastive Input Morphing (CIM) はデータの入力空間変換を学習する表現学習フレームワークである。
CIMは他の相互情報に基づく表現学習技術と相補的であることを示す。
論文 参考訳(メタデータ) (2021-06-11T21:45:44Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。