論文の概要: Towards Accurate and Consistent Evaluation: A Dataset for
Distantly-Supervised Relation Extraction
- arxiv url: http://arxiv.org/abs/2010.16275v1
- Date: Fri, 30 Oct 2020 13:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 16:43:28.909933
- Title: Towards Accurate and Consistent Evaluation: A Dataset for
Distantly-Supervised Relation Extraction
- Title(参考訳): 正確かつ一貫した評価に向けて:遠隔教師付き関係抽出のためのデータセット
- Authors: Tong Zhu, Haitao Wang, Junjie Yu, Xiabing Zhou, Wenliang Chen, Wei
Zhang, Min Zhang
- Abstract要約: 新しいデータセットNYTHを構築し、DS生成データをトレーニングデータとして使用し、アノテータを採用してテストデータのラベル付けを行います。
以前のデータセットと比較すると、NYT-Hははるかに大きなテストセットを持ち、より正確で一貫した評価を行うことができます。
実験結果から,DSラベル付きテストデータと人間アノテーション付きテストデータとでは,比較システムのランキング表が異なることが明らかとなった。
- 参考スコア(独自算出の注目度): 14.958043759503658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, distantly-supervised relation extraction has achieved a
certain success by using deep neural networks. Distant Supervision (DS) can
automatically generate large-scale annotated data by aligning entity pairs from
Knowledge Bases (KB) to sentences. However, these DS-generated datasets
inevitably have wrong labels that result in incorrect evaluation scores during
testing, which may mislead the researchers. To solve this problem, we build a
new dataset NYTH, where we use the DS-generated data as training data and hire
annotators to label test data. Compared with the previous datasets, NYT-H has a
much larger test set and then we can perform more accurate and consistent
evaluation. Finally, we present the experimental results of several widely used
systems on NYT-H. The experimental results show that the ranking lists of the
comparison systems on the DS-labelled test data and human-annotated test data
are different. This indicates that our human-annotated data is necessary for
evaluation of distantly-supervised relation extraction.
- Abstract(参考訳): 近年,深層ニューラルネットワークを用いた遠隔教師付き関係抽出が一定の成功を収めている。
Distant Supervision(DS)は、知識ベース(KB)から文へのエンティティペアのアノテートによって、大規模なアノテートデータを自動的に生成する。
しかし、これらのDS生成データセットは、テスト中に誤った評価スコアをもたらす間違ったラベルを持っているため、研究者を誤解させる可能性がある。
この問題を解決するために,ds生成データをトレーニングデータとして使用し,テストデータのラベル付けにアノテーションを採用可能な,新たなデータセットnythを構築した。
以前のデータセットと比較すると、NYT-Hははるかに大きなテストセットを持ち、より正確で一貫した評価を行うことができます。
最後に,nyt-h上で広く利用されているシステムの実験結果を示す。
実験結果から,DSラベル付きテストデータと人間アノテーション付きテストデータとでは,比較システムのランキング表が異なることが明らかとなった。
これは, 遠隔教師付き関係抽出の評価には, 人間の注釈データが必要であることを示している。
関連論文リスト
- Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data [0.0]
本研究では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張を提案する。
トレーニングデータを拡張するために、ラベルのないデータをデータ拡張に活用する。
潜在変数は、最終分類器の入力としてラベル付きおよびラベルなしのデータから得ることができる。
論文 参考訳(メタデータ) (2024-07-06T07:51:24Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A Principled Evaluation Protocol for Comparative Investigation of the
Effectiveness of DNN Classification Models on Similar-but-non-identical
Datasets [11.735794237408427]
我々は、Deep Neural Network(DNN)モデルが、レプリケーションテストデータセットの精度において、大きく、一貫性があり、ほとんど説明されていない劣化を示すことを示した。
複数のテストデータセット上でDNNモデルの精度を比較検討するのに適した,原則付き評価プロトコルを提案する。
実験結果から,確立されたベンチマークデータセットとそれらの複製の間で観測された精度の劣化が一貫して低下していることが示唆された。
論文 参考訳(メタデータ) (2022-09-05T09:14:43Z) - Vector-Based Data Improves Left-Right Eye-Tracking Classifier
Performance After a Covariate Distributional Shift [0.0]
我々は、より堅牢なベンチマークを作成するために、EEG-ETデータ収集のための微粒なデータアプローチを提案する。
我々は、粗粒データと細粒データの両方を利用して機械学習モデルを訓練し、類似/異なる分布パターンのデータでテストした場合の精度を比較した。
その結果、細粒度ベクトルベースでトレーニングされたモデルは、粗粒度二分分類されたデータでトレーニングされたモデルよりも分布シフトの影響を受けにくいことがわかった。
論文 参考訳(メタデータ) (2022-07-31T16:27:50Z) - Anomaly Detection with Test Time Augmentation and Consistency Evaluation [13.709281244889691]
本稿では,TTA-AD(Test Time Augmentation Anomaly Detection)と呼ばれる簡易かつ効果的な異常検出アルゴリズムを提案する。
我々は、分散データよりもトレーニングされたネットワーク上でのオリジナルバージョンと拡張バージョンについて、分散データの方が一貫性のある予測を楽しむことを観察した。
様々な高解像度画像ベンチマークデータセットの実験は、TTA-ADが同等またはより良い検出性能を達成することを示した。
論文 参考訳(メタデータ) (2022-06-06T04:27:06Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - HYDRA: Hypergradient Data Relevance Analysis for Interpreting Deep
Neural Networks [51.143054943431665]
本稿では、深層ニューラルネットワーク(DNN)による予測をトレーニングデータの効果として解釈する高次データ関連分析(HYDRA)を提案する。
HYDRAは、トレーニング軌跡全体を通して、テストデータポイントに対するトレーニングデータの貢献を評価する。
さらに,HyDRAは,データのコントリビューションを正確に推定し,ノイズのあるデータラベルを検出することで,影響関数よりも優れていることを定量的に示す。
論文 参考訳(メタデータ) (2021-02-04T10:00:13Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。