論文の概要: Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction
- arxiv url: http://arxiv.org/abs/2105.09543v1
- Date: Thu, 20 May 2021 06:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-05-21 13:46:24.815931
- Title: Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction
- Title(参考訳): 手動評価項目:遠隔監視型関係抽出テストプロトコルのレビュー
- Authors: Tianyu Gao, Xu Han, Keyue Qiu, Yuzhuo Bai, Zhiyu Xie, Yankai Lin,
Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou
- Abstract要約: 2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
- 参考スコア(独自算出の注目度): 61.48964753725744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distantly supervised (DS) relation extraction (RE) has attracted much
attention in the past few years as it can utilize large-scale auto-labeled
data. However, its evaluation has long been a problem: previous works either
took costly and inconsistent methods to manually examine a small sample of
model predictions, or directly test models on auto-labeled data -- which, by
our check, produce as much as 53% wrong labels at the entity pair level in the
popular NYT10 dataset. This problem has not only led to inaccurate evaluation,
but also made it hard to understand where we are and what's left to improve in
the research of DS-RE. To evaluate DS-RE models in a more credible way, we
build manually-annotated test sets for two DS-RE datasets, NYT10 and Wiki20,
and thoroughly evaluate several competitive models, especially the latest
pre-trained ones. The experimental results show that the manual evaluation can
indicate very different conclusions from automatic ones, especially some
unexpected observations, e.g., pre-trained models can achieve dominating
performance while being more susceptible to false-positives compared to
previous methods. We hope that both our manual test sets and novel observations
can help advance future DS-RE research.
- Abstract(参考訳): 遠隔監視(DS)関係抽出(RE)は,大規模な自動ラベル付きデータを利用するため,近年注目されている。
モデル予測の小さなサンプルを手作業で検証するために、コストと一貫性のない方法、あるいは自動ラベル付きデータ上でモデルを直接テストする — 当社のチェックでは、一般的なNYT10データセットのエンティティペアレベルで、最大53%の間違ったラベルを生成する。
この問題が不正確な評価につながっただけでなく、DS-REの研究で私たちがどこにいるか、何が改善されているのかを理解するのが難しくなりました。
DS-REモデルをより信頼性の高い方法で評価するために、2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートされたテストセットを構築し、いくつかの競合モデル、特に最新の事前学習モデルについて徹底的に評価する。
実験結果から、手動による評価は自動的な結果とは全く異なる結論を示すことが示され、特に、事前訓練されたモデルでは、従来の手法に比べて偽陽性の可能性が強く、支配的な性能を達成することができる。
手動テストセットと新しい観測結果の両方が将来のds-re研究に役立てることを願っています。
関連論文リスト
- Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Confidence-Guided Data Augmentation for Deep Semi-Supervised Training [0.9968241071319184]
特徴空間の最も困難な領域からの学習を強調する半教師付き学習設定のための新しいデータ拡張手法を提案する。
CIFAR-100とSTL-10の2つのベンチマークRGBデータセットを用いて実験を行い、提案手法が精度とロバスト性の観点から分類性能を向上させることを示す。
論文 参考訳(メタデータ) (2022-09-16T21:23:19Z) - A Principled Evaluation Protocol for Comparative Investigation of the
Effectiveness of DNN Classification Models on Similar-but-non-identical
Datasets [11.735794237408427]
我々は、Deep Neural Network(DNN)モデルが、レプリケーションテストデータセットの精度において、大きく、一貫性があり、ほとんど説明されていない劣化を示すことを示した。
複数のテストデータセット上でDNNモデルの精度を比較検討するのに適した,原則付き評価プロトコルを提案する。
実験結果から,確立されたベンチマークデータセットとそれらの複製の間で観測された精度の劣化が一貫して低下していることが示唆された。
論文 参考訳(メタデータ) (2022-09-05T09:14:43Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - The MultiBERTs: BERT Reproductions for Robustness Analysis [86.29162676103385]
事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。
我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。
目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
論文 参考訳(メタデータ) (2021-06-30T15:56:44Z) - A Systematic Evaluation of Transfer Learning and Pseudo-labeling with
BERT-based Ranking Models [2.0498977512661267]
BERTに基づく5つの英語データセット間のニューラルランキングモデルの転送性を評価する。
各コレクションには膨大な数のクエリがあり、フルショット評価モードを可能にします。
擬似ラベルのトレーニングは、転送学習と比較して、競争力や優れたモデルを生み出すことができる。
論文 参考訳(メタデータ) (2021-03-04T21:08:06Z) - Towards Accurate and Consistent Evaluation: A Dataset for
Distantly-Supervised Relation Extraction [14.958043759503658]
新しいデータセットNYTHを構築し、DS生成データをトレーニングデータとして使用し、アノテータを採用してテストデータのラベル付けを行います。
以前のデータセットと比較すると、NYT-Hははるかに大きなテストセットを持ち、より正確で一貫した評価を行うことができます。
実験結果から,DSラベル付きテストデータと人間アノテーション付きテストデータとでは,比較システムのランキング表が異なることが明らかとなった。
論文 参考訳(メタデータ) (2020-10-30T13:52:52Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。