論文の概要: Evaluating Models' Local Decision Boundaries via Contrast Sets
- arxiv url: http://arxiv.org/abs/2004.02709v2
- Date: Thu, 1 Oct 2020 21:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:35:33.702731
- Title: Evaluating Models' Local Decision Boundaries via Contrast Sets
- Title(参考訳): コントラスト集合を用いたモデル局所決定境界の評価
- Authors: Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben
Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth
Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel
Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Liu, Phoebe Mulcaire, Qiang
Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric
Wallace, Ally Zhang, Ben Zhou
- Abstract要約: テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
- 参考スコア(独自算出の注目度): 119.38387782979474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard test sets for supervised learning evaluate in-distribution
generalization. Unfortunately, when a dataset has systematic gaps (e.g.,
annotation artifacts), these evaluations are misleading: a model can learn
simple decision rules that perform well on the test set but do not capture a
dataset's intended capabilities. We propose a new annotation paradigm for NLP
that helps to close systematic gaps in the test data. In particular, after a
dataset is constructed, we recommend that the dataset authors manually perturb
the test instances in small but meaningful ways that (typically) change the
gold label, creating contrast sets. Contrast sets provide a local view of a
model's decision boundary, which can be used to more accurately evaluate a
model's true linguistic capabilities. We demonstrate the efficacy of contrast
sets by creating them for 10 diverse NLP datasets (e.g., DROP reading
comprehension, UD parsing, IMDb sentiment analysis). Although our contrast sets
are not explicitly adversarial, model performance is significantly lower on
them than on the original test sets---up to 25\% in some cases. We release our
contrast sets as new evaluation benchmarks and encourage future dataset
construction efforts to follow similar annotation processes.
- Abstract(参考訳): 教師付き学習のための標準テストセットは、分布の一般化を評価する。
残念ながら、データセットが系統的なギャップ(例えばアノテーションアーティファクト)を持っている場合、これらの評価は誤解を招く。
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
特に、データセットが構築された後、データセットの作者は、小さなが意味のある方法でテストインスタンスを手動で摂動させ、(典型的には)ゴールドラベルを変更してコントラストセットを作成することを推奨します。
コントラストセットはモデルの決定境界の局所的なビューを提供し、モデルの真の言語能力をより正確に評価するために使用できる。
10種類のnlpデータセット(例えば、ドロップ読み込み理解、ud解析、imdb感情分析)に対してコントラストセットを作成することで、コントラストセットの有効性を実証する。
コントラストセットは明示的に逆向きではないが、モデルのパフォーマンスは元のテストセットよりもかなり低く、場合によっては25\%まで低下する。
コントラストセットを新しい評価ベンチマークとしてリリースし、同様のアノテーションプロセスに従うための将来のデータセット構築努力を奨励します。
関連論文リスト
- Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Automatic Generation of Contrast Sets from Scene Graphs: Probing the
Compositional Consistency of GQA [16.95631509102115]
教師付きモデルは、しばしばデータアーティファクトを利用して良好なテストスコアを達成し、そのパフォーマンスはトレーニング分布外のサンプルで著しく低下します。
本稿では,リッチなセマンティック入力表現を利用して,視覚的質問応答タスクのコントラストセットを自動的に生成する新しい手法を提案する。
GQAの組成とラベルのバランスの取れた分布にもかかわらず、2つのハイパフォーマンスモデルが元のテストセットと比較して13-17%の精度で低下することがわかった。
論文 参考訳(メタデータ) (2021-03-17T12:19:25Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。