論文の概要: Consistent Document-Level Relation Extraction via Counterfactuals
- arxiv url: http://arxiv.org/abs/2407.06699v1
- Date: Tue, 9 Jul 2024 09:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:36:32.233108
- Title: Consistent Document-Level Relation Extraction via Counterfactuals
- Title(参考訳): 対物的手法による一貫性のある文書レベル関係抽出
- Authors: Ali Modarressi, Abdullatif Köksal, Hinrich Schütze,
- Abstract要約: 実世界のデータに基づいて訓練された文書レベルの関係抽出モデルが,事実バイアスに悩まされていることが示されている。
文書抽出のための文書レベルの反事実データのデータセットであるCovEReDを提案する。
本研究では,CovEReDモデルを用いて文書レベルの反事実データを生成することにより,一貫性が維持されることを示す。
- 参考スコア(独自算出の注目度): 47.75615221596254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many datasets have been developed to train and evaluate document-level relation extraction (RE) models. Most of these are constructed using real-world data. It has been shown that RE models trained on real-world data suffer from factual biases. To evaluate and address this issue, we present CovEReD, a counterfactual data generation approach for document-level relation extraction datasets using entity replacement. We first demonstrate that models trained on factual data exhibit inconsistent behavior: while they accurately extract triples from factual data, they fail to extract the same triples after counterfactual modification. This inconsistency suggests that models trained on factual data rely on spurious signals such as specific entities and external knowledge $\unicode{x2013}$ rather than on the input context $\unicode{x2013}$ to extract triples. We show that by generating document-level counterfactual data with CovEReD and training models on them, consistency is maintained with minimal impact on RE performance. We release our CovEReD pipeline as well as Re-DocRED-CF, a dataset of counterfactual RE documents, to assist in evaluating and addressing inconsistency in document-level RE.
- Abstract(参考訳): 多くのデータセットがドキュメントレベルの関係抽出(RE)モデルを訓練し、評価するために開発されている。
これらの多くは実世界のデータを使って構築されている。
実世界のデータに基づいてトレーニングされたREモデルは、事実バイアスに悩まされていることが示されている。
この問題を評価し,対処するために,エンティティ置換を用いた文書レベルの関係抽出データセットに対する対実データ生成手法であるCovEReDを提案する。
事実データから正確に三重項を抽出する一方で、反事実修正後に同じ三重項を抽出することができない。
この矛盾は、実データに基づいてトレーニングされたモデルは、入力コンテキスト$\unicode{x2013}$ではなく、特定のエンティティや外部知識$\unicode{x2013}$のような刺激的な信号に頼っていることを示唆している。
我々は,CovEReDを用いて文書レベルの反事実データを生成し,その上でトレーニングモデルを作成することにより,RE性能に最小限の影響を伴って整合性を維持することを示す。
CovEReDパイプラインと反ファクトのREドキュメントのデータセットであるRe-DocRED-CFをリリースし、ドキュメントレベルのREにおける一貫性の評価と対処を支援します。
関連論文リスト
- Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - AutoRE: Document-Level Relation Extraction with Large Language Models [27.426703757501507]
我々は、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンド・ツー・エンドのDocREモデルであるAutoREを紹介する。
既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。
RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、最先端の結果が得られました。
論文 参考訳(メタデータ) (2024-03-21T23:48:21Z) - PRiSM: Enhancing Low-Resource Document-Level Relation Extraction with
Relation-Aware Score Calibration [44.074482478955126]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のすべてのエンティティペアの関係を抽出することを目的としている。
DocREの主な課題は、人間の集中的な努力を必要とするデータに注釈をつけるコストである。
本稿では,関係意味情報に基づくロジット適応学習を行うPRiSMを提案する。
論文 参考訳(メタデータ) (2023-09-25T04:42:39Z) - Revisiting DocRED -- Addressing the False Negative Problem in Relation
Extraction [39.78594332093083]
DocREDデータセットに4,053のドキュメントを再注釈し、失敗した関係を元のDocREDに追加しました。
両データセット上で最先端のニューラルモデルによる広範な実験を行い、実験結果から、Re-DocREDでトレーニングおよび評価されたモデルが、約13F1ポイントのパフォーマンス改善を実現していることが示された。
論文 参考訳(メタデータ) (2022-05-25T11:54:48Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。