論文の概要: NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance
- arxiv url: http://arxiv.org/abs/2104.04751v1
- Date: Sat, 10 Apr 2021 12:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:23:01.500163
- Title: NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance
- Title(参考訳): NLI Data Sanity Check: データ破壊がモデルパフォーマンスに与える影響を評価する
- Authors: Aarne Talman, Marianna Apidianaki, Stergios Chatzikyriakidis, J\"org
Tiedemann
- Abstract要約: データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
- 参考スコア(独自算出の注目度): 3.7024660695776066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained neural language models give high performance on natural language
inference (NLI) tasks. But whether they actually understand the meaning of the
processed sequences remains unclear. We propose a new diagnostics test suite
which allows to assess whether a dataset constitutes a good testbed for
evaluating the models' meaning understanding capabilities. We specifically
apply controlled corruption transformations to widely used benchmarks (MNLI and
ANLI), which involve removing entire word classes and often lead to
non-sensical sentence pairs. If model accuracy on the corrupted data remains
high, then the dataset is likely to contain statistical biases and artefacts
that guide prediction. Inversely, a large decrease in model accuracy indicates
that the original dataset provides a proper challenge to the models' reasoning
capabilities. Hence, our proposed controls can serve as a crash test for
developing high quality data for NLI tasks.
- Abstract(参考訳): 事前学習されたニューラルネットワークモデルは、自然言語推論(NLI)タスクに高いパフォーマンスを与える。
しかし、実際に処理された配列の意味を理解するかどうかは不明だ。
本稿では,データセットがモデルの意味理解能力を評価するための優れたテストベッドを構成するかどうかを評価するための新しい診断テストスイートを提案する。
特に,広く使用されているベンチマーク (MNLI と ANLI) に制御汚職変換を適用し,単語のクラス全体を取り除き,非意味な文対につながることが多い。
破損したデータのモデル精度が高ければ、データセットは予測を導く統計バイアスとアーティファクトを含む可能性が高い。
逆に、モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な課題をもたらすことを示している。
したがって,提案する制御は,nliタスクの高品質データ開発のためのクラッシュテストとして機能する。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - How Does Data Corruption Affect Natural Language Understanding Models? A
Study on GLUE datasets [4.645287693363387]
モデルが微調整されたり、破損したデータでテストされた場合、ほとんどのGLUEタスクのパフォーマンスは高いままである。
提案したデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する範囲を評価するための診断ツールとして利用することができる。
論文 参考訳(メタデータ) (2022-01-12T13:35:53Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Benchmarking Popular Classification Models' Robustness to Random and
Targeted Corruptions [9.564145822310897]
テキスト分類モデル、特にニューラルネットワークベースのモデルは、多くの人気のあるベンチマークデータセットで非常に高い精度に達している。
しかし、そのようなモデルが現実世界のアプリケーションにデプロイされると、パフォーマンスが悪くなります。
これはモデルに依存しないテストデータセットの必要性を強調している。
論文 参考訳(メタデータ) (2020-01-31T11:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。