論文の概要: Predicting Document Coverage for Relation Extraction
- arxiv url: http://arxiv.org/abs/2111.13611v1
- Date: Fri, 26 Nov 2021 17:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 19:12:48.736958
- Title: Predicting Document Coverage for Relation Extraction
- Title(参考訳): 関係抽出のための文書被覆予測
- Authors: Sneha Singhania, Simon Razniewski, Gerhard Weikum
- Abstract要約: 520のエンティティを対象とした31,366の多様なドキュメントのデータセットを提示する。
文書カバレッジと長さ,エンティティ参照頻度,Alexa,ランク言語の複雑性,情報検索スコアといった特徴の相関関係を分析する。
TF-IDFのような統計モデルとBERTのような関係言語モデルを組み合わせた手法を用いる。
- 参考スコア(独自算出の注目度): 25.385862319865335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new task of predicting the coverage of a text document
for relation extraction (RE): does the document contain many relational tuples
for a given entity? Coverage predictions are useful in selecting the best
documents for knowledge base construction with large input corpora. To study
this problem, we present a dataset of 31,366 diverse documents for 520
entities. We analyze the correlation of document coverage with features like
length, entity mention frequency, Alexa rank, language complexity and
information retrieval scores. Each of these features has only moderate
predictive power. We employ methods combining features with statistical models
like TF-IDF and language models like BERT. The model combining features and
BERT, HERB, achieves an F1 score of up to 46%. We demonstrate the utility of
coverage predictions on two use cases: KB construction and claim refutation.
- Abstract(参考訳): 本稿では,関係抽出のためのテキスト文書のカバレッジを予測するための新しいタスクを提案する。
カバレッジ予測は,大規模な入力コーパスを用いた知識ベース構築に適した文書の選択に有用である。
そこで本研究では、520のエンティティについて31,366の多様な文書のデータセットを提案する。
文書カバレッジと長さ,エンティティ参照頻度,Alexaランク,言語複雑性,情報検索スコアといった特徴の相関関係を分析する。
これらの特徴はそれぞれ、適度な予測力しか持たない。
TF-IDFのような統計モデルとBERTのような言語モデルを組み合わせた手法を用いる。
BERTとHERBを組み合わせたモデルでは、F1スコアが最大46%に達する。
kb構成とクレーム反論の2つのユースケースにおいて,カバレッジ予測の有用性を示す。
関連論文リスト
- Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents [31.434507306952458]
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,注目度計算の新たなバイアスを取り入れたKNNフォーマを提案する。
また、多くの文書に存在する1対1のマッピング特性に対処するために、マッチング空間を用いる。
本手法はトレーニング可能なパラメータの数の観点から既存の手法と比較して非常に効率的である。
論文 参考訳(メタデータ) (2024-05-08T10:10:38Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Eider: Evidence-enhanced Document-level Relation Extraction [56.71004595444816]
文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。
本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T09:43:16Z) - Literature Retrieval for Precision Medicine with Neural Matching and
Faceted Summarization [2.978663539080876]
本稿では,ニューラルクエリ文書マッチングとテキスト要約を組み合わせた文書分類手法を提案する。
NISTのTREC-PMトラックデータセットを用いた評価により,本モデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-12-17T02:01:32Z) - AQuaMuSe: Automatically Generating Datasets for Query-Based
Multi-Document Summarization [17.098075160558576]
本稿では,質問応答データセットと大規模文書コーパスからqMDS例を自動的に抽出する,AQuaMuSeと呼ばれるスケーラブルな手法を提案する。
5,519のクエリベースの要約を持つAQuaMuSeデータセットの特定のインスタンスを公開し、それぞれがCommon Crawlから355万のドキュメントのインデックスから選択された平均6つの入力ドキュメントを関連づける。
論文 参考訳(メタデータ) (2020-10-23T22:38:18Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。