論文の概要: NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance
- arxiv url: http://arxiv.org/abs/2104.04751v1
- Date: Sat, 10 Apr 2021 12:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:23:01.500163
- Title: NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance
- Title(参考訳): NLI Data Sanity Check: データ破壊がモデルパフォーマンスに与える影響を評価する
- Authors: Aarne Talman, Marianna Apidianaki, Stergios Chatzikyriakidis, J\"org
Tiedemann
- Abstract要約: データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
- 参考スコア(独自算出の注目度): 3.7024660695776066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained neural language models give high performance on natural language
inference (NLI) tasks. But whether they actually understand the meaning of the
processed sequences remains unclear. We propose a new diagnostics test suite
which allows to assess whether a dataset constitutes a good testbed for
evaluating the models' meaning understanding capabilities. We specifically
apply controlled corruption transformations to widely used benchmarks (MNLI and
ANLI), which involve removing entire word classes and often lead to
non-sensical sentence pairs. If model accuracy on the corrupted data remains
high, then the dataset is likely to contain statistical biases and artefacts
that guide prediction. Inversely, a large decrease in model accuracy indicates
that the original dataset provides a proper challenge to the models' reasoning
capabilities. Hence, our proposed controls can serve as a crash test for
developing high quality data for NLI tasks.
- Abstract(参考訳): 事前学習されたニューラルネットワークモデルは、自然言語推論(NLI)タスクに高いパフォーマンスを与える。
しかし、実際に処理された配列の意味を理解するかどうかは不明だ。
本稿では,データセットがモデルの意味理解能力を評価するための優れたテストベッドを構成するかどうかを評価するための新しい診断テストスイートを提案する。
特に,広く使用されているベンチマーク (MNLI と ANLI) に制御汚職変換を適用し,単語のクラス全体を取り除き,非意味な文対につながることが多い。
破損したデータのモデル精度が高ければ、データセットは予測を導く統計バイアスとアーティファクトを含む可能性が高い。
逆に、モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な課題をもたらすことを示している。
したがって,提案する制御は,nliタスクの高品質データ開発のためのクラッシュテストとして機能する。
関連論文リスト
- Measuring and Improving Attentiveness to Partial Inputs with
Counterfactuals [95.5442607785241]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - How Does Data Corruption Affect Natural Language Understanding Models? A
Study on GLUE datasets [4.645287693363387]
モデルが微調整されたり、破損したデータでテストされた場合、ほとんどのGLUEタスクのパフォーマンスは高いままである。
提案したデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する範囲を評価するための診断ツールとして利用することができる。
論文 参考訳(メタデータ) (2022-01-12T13:35:53Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Benchmarking Popular Classification Models' Robustness to Random and
Targeted Corruptions [9.564145822310897]
テキスト分類モデル、特にニューラルネットワークベースのモデルは、多くの人気のあるベンチマークデータセットで非常に高い精度に達している。
しかし、そのようなモデルが現実世界のアプリケーションにデプロイされると、パフォーマンスが悪くなります。
これはモデルに依存しないテストデータセットの必要性を強調している。
論文 参考訳(メタデータ) (2020-01-31T11:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。