論文の概要: Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED
- arxiv url: http://arxiv.org/abs/2204.07980v1
- Date: Sun, 17 Apr 2022 11:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 14:28:45.965764
- Title: Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED
- Title(参考訳): recommend-reviseは信頼できるアノテーションを生成するか?
DocREDにおける欠落事例の分析
- Authors: Quzhe Huang, Shibo Hao, Yuan Ye, Shengqi Zhu, Yansong Feng, Dongyan
Zhao
- Abstract要約: テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
- 参考スコア(独自算出の注目度): 60.39125850987604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DocRED is a widely used dataset for document-level relation extraction. In
the large-scale annotation, a \textit{recommend-revise} scheme is adopted to
reduce the workload. Within this scheme, annotators are provided with candidate
relation instances from distant supervision, and they then manually supplement
and remove relational facts based on the recommendations. However, when
comparing DocRED with a subset relabeled from scratch, we find that this scheme
results in a considerable amount of false negative samples and an obvious bias
towards popular entities and relations. Furthermore, we observe that the models
trained on DocRED have low recall on our relabeled dataset and inherit the same
bias in the training data. Through the analysis of annotators' behaviors, we
figure out the underlying reason for the problems above: the scheme actually
discourages annotators from supplementing adequate instances in the revision
phase. We appeal to future research to take into consideration the issues with
the recommend-revise scheme when designing new models and annotation schemes.
The relabeled dataset is released at
\url{https://github.com/AndrewZhe/Revisit-DocRED}, to serve as a more reliable
test set of document RE models.
- Abstract(参考訳): DocREDはドキュメントレベルの関係抽出に広く使われているデータセットである。
大規模なアノテーションでは、ワークロードを減らすために \textit{recommend-revise}スキームが採用されている。
このスキームでは、アノテータには遠方の監督からの候補関係インスタンスが提供され、その推奨に基づいて、手動で関係事実を補足し削除する。
しかし、scratch relabeled と docred を比較すると、このスキームはかなりの量の偽陰性のサンプルをもたらし、人気のあるエンティティや関係に対する明らかなバイアスをもたらすことが分かる。
さらに、DocREDでトレーニングされたモデルは、当社のラベル付きデータセットを低リコールし、トレーニングデータで同じバイアスを継承する。
アノテーションの振る舞いの分析を通じて、上記の問題の根本的な原因を解明する: このスキームは、実際にアノテーションがリビジョンフェーズで適切なインスタンスを補完することを妨げている。
我々は,新しいモデルとアノテーションスキームを設計する際の推奨・修正スキームの問題点を考慮し,今後の研究に目を向ける。
relabeledデータセットは \url{https://github.com/AndrewZhe/Revisit-DocRED} でリリースされ、ドキュメント REモデルのより信頼性の高いテストセットとして機能する。
関連論文リスト
- Class-Adaptive Self-Training for Relation Extraction with Incompletely
Annotated Training Data [43.46328487543664]
関係抽出(RE)は、文や文書から関係を抽出することを目的としている。
最近の研究により、多くのREデータセットが不完全注釈付きであることが示されている。
これは、有効関係が「no_relation」として誤って注釈付けされる偽陰問題として知られている。
論文 参考訳(メタデータ) (2023-06-16T09:01:45Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Revisiting DocRED -- Addressing the False Negative Problem in Relation
Extraction [39.78594332093083]
DocREDデータセットに4,053のドキュメントを再注釈し、失敗した関係を元のDocREDに追加しました。
両データセット上で最先端のニューラルモデルによる広範な実験を行い、実験結果から、Re-DocREDでトレーニングおよび評価されたモデルが、約13F1ポイントのパフォーマンス改善を実現していることが示された。
論文 参考訳(メタデータ) (2022-05-25T11:54:48Z) - Relation Extraction as Open-book Examination: Retrieval-enhanced Prompt
Tuning [109.7767515627765]
本稿では,関係抽出のための新たな半パラメトリックなプロンプトチューニング手法を提案する。
我々のモデルは、トレーニング中に重みに格納された知識を通して関係を推測する。
本手法は,標準的な教師付き設定と少数ショット設定の両方で最先端を実現することができる。
論文 参考訳(メタデータ) (2022-05-04T23:38:37Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Document-Level Relation Extraction with Reconstruction [28.593318203728963]
文書レベルの関係抽出(DocRE)のための新しいエンコーダ分類器再構成モデルを提案する。
再構築器は、グラフ表現からの基底経路依存性を再構築し、提案されたDocREモデルがトレーニングにおけるエンティティペアと関係をエンコードすることにもっと注意を払っていることを確認する。
大規模docreデータセットにおける実験結果から,提案モデルにより,グラフベースラインにおける関係抽出精度が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-12-21T14:29:31Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。