論文の概要: Re-TACRED: Addressing Shortcomings of the TACRED Dataset
- arxiv url: http://arxiv.org/abs/2104.08398v1
- Date: Fri, 16 Apr 2021 22:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 10:29:01.726894
- Title: Re-TACRED: Addressing Shortcomings of the TACRED Dataset
- Title(参考訳): Re-TACRED:TACREDデータセットの欠点に対処
- Authors: George Stoica, Emmanouil Antonios Platanios, Barnab\'as P\'oczos
- Abstract要約: TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
- 参考スコア(独自算出の注目度): 5.820381428297218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TACRED is one of the largest and most widely used sentence-level relation
extraction datasets. Proposed models that are evaluated using this dataset
consistently set new state-of-the-art performance. However, they still exhibit
large error rates despite leveraging external knowledge and unsupervised
pretraining on large text corpora. A recent study suggested that this may be
due to poor dataset quality. The study observed that over 50% of the most
challenging sentences from the development and test sets are incorrectly
labeled and account for an average drop of 8% f1-score in model performance.
However, this study was limited to a small biased sample of 5k (out of a total
of 106k) sentences, substantially restricting the generalizability and broader
implications of its findings. In this paper, we address these shortcomings by:
(i) performing a comprehensive study over the whole TACRED dataset, (ii)
proposing an improved crowdsourcing strategy and deploying it to re-annotate
the whole dataset, and (iii) performing a thorough analysis to understand how
correcting the TACRED annotations affects previously published results. After
verification, we observed that 23.9% of TACRED labels are incorrect. Moreover,
evaluating several models on our revised dataset yields an average f1-score
improvement of 14.3% and helps uncover significant relationships between the
different models (rather than simply offsetting or scaling their scores by a
constant factor). Finally, aside from our analysis we also release Re-TACRED, a
new completely re-annotated version of the TACRED dataset that can be used to
perform reliable evaluation of relation extraction models.
- Abstract(参考訳): TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、外部知識を活用しながら大きなエラー率を示し、大きなテキストコーパスで教師なし事前学習を行っている。
最近の研究によると、これはデータセットの品質が低いためかもしれない。
研究は、開発およびテストセットの最も難しい文の50%以上が誤ってラベル付けされており、モデル性能が平均8%f1-score低下していることを報告した。
しかし,本研究は5k文(合計106k文中)の小さな偏りのサンプルに限られており,その一般化可能性やより広い意味を著しく制限している。
本稿では,これらの欠点について,(i)tacredデータセット全体の包括的調査,(ii)クラウドソーシング戦略の改善の提案,(iii)tacredアノテーションの修正が以前公表された結果にどのように影響するかを理解するために,徹底的な分析を行う。
検証の結果,TACREDラベルの23.9%が誤りであることがわかった。
さらに、修正データセット上でいくつかのモデルを評価することで、平均f1スコアの14.3%の改善が得られ、異なるモデル間の重要な関係を明らかにするのに役立ちます。
最後に、我々の分析とは別に、関係抽出モデルの信頼性評価に使用できるTACREDデータセットの完全再注釈版であるRe-TACREDをリリースする。
関連論文リスト
- Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Unbiased Supervised Contrastive Learning [10.728852691100338]
本研究では,バイアスに頑健な表現を学習する問題に取り組む。
まず、偏りのあるデータを扱う際に、最近の対照的な損失がなぜ失敗するのかを明らかにするための、マージンに基づく理論的枠組みを提案する。
教師付きコントラスト損失(epsilon-SupInfoNCE)を新たに定式化し,正試料と負試料の最小距離をより正確に制御する。
理論的な枠組みのおかげで、極めて偏りのあるデータでもうまく機能する新しい偏りのある正規化損失であるFairKLも提案する。
論文 参考訳(メタデータ) (2022-11-10T13:44:57Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact
Verification Models [14.75693099720436]
そこで本研究では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。
既存のサンプルから新たなクレームやエビデンスを生成するために、2段階拡張パイプラインを使用します。
生成されたサンプルは、元のペアとクロスワイズにペアリングされ、対照的なサンプルを形成します。
論文 参考訳(メタデータ) (2021-09-30T13:19:19Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。