論文の概要: CD2CR: Co-reference Resolution Across Documents and Domains
- arxiv url: http://arxiv.org/abs/2101.12637v1
- Date: Fri, 29 Jan 2021 15:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 16:38:02.359467
- Title: CD2CR: Co-reference Resolution Across Documents and Domains
- Title(参考訳): CD2CR:ドキュメントとドメインの相互参照解決
- Authors: James Ravenscroft and Arie Cattan and Amanda Clare and Ido Dagan and
Maria Liakata
- Abstract要約: クロスドキュメント・コリファレンス・レゾリューション (CDCR) は、多くのテキスト文書にまたがるエンティティや概念への言及を識別し、リンクするタスクである。
クロスドキュメント・クロスドメイン・コリファレンス・レゾリューション(CD$2$CR)のための新しいタスクと英語データセットを提案する。
このクロスドメインなクロスドキュメント設定では、既存のCDCRモデルはうまく動作せず、CD$2$CR上の現在の最先端CDCRモデルより優れたベースラインモデルを提供する。
- 参考スコア(独自算出の注目度): 20.30046972135548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-document co-reference resolution (CDCR) is the task of identifying and
linking mentions to entities and concepts across many text documents. Current
state-of-the-art models for this task assume that all documents are of the same
type (e.g. news articles) or fall under the same theme. However, it is also
desirable to perform CDCR across different domains (type or theme). A
particular use case we focus on in this paper is the resolution of entities
mentioned across scientific work and newspaper articles that discuss them.
Identifying the same entities and corresponding concepts in both scientific
articles and news can help scientists understand how their work is represented
in mainstream media. We propose a new task and English language dataset for
cross-document cross-domain co-reference resolution (CD$^2$CR). The task aims
to identify links between entities across heterogeneous document types. We show
that in this cross-domain, cross-document setting, existing CDCR models do not
perform well and we provide a baseline model that outperforms current
state-of-the-art CDCR models on CD$^2$CR. Our data set, annotation tool and
guidelines as well as our model for cross-document cross-domain co-reference
are all supplied as open access open source resources.
- Abstract(参考訳): cross-document co-reference resolution (cdcr) は、多くのテキスト文書にまたがるエンティティや概念への言及を識別しリンクするタスクである。
このタスクの現在の最先端モデルは、すべてのドキュメントが同じタイプ(例えば、)であると仮定する。
ニュース記事)または同じテーマに該当する。
しかし、異なるドメイン(タイプまたはテーマ)でCDCRを実行することも望ましい。
この論文で特に注目するユースケースは、科学的な仕事とそれらの議論する新聞記事にまたがるエンティティの解決である。
科学記事とニュースの両方で同じ実体と対応する概念を識別することは、科学者が彼らの仕事がどのように主流メディアで表現されるかを理解するのに役立ちます。
クロスドキュメントのクロスドメインコリファレンス解決(CD$^2$CR)のための新しいタスクと英語データセットを提案する。
このタスクは異種ドキュメントタイプ間のエンティティ間のリンクを識別することを目的としている。
このクロスドメインなクロスドキュメント設定では、既存のCDCRモデルはうまく動作せず、CD$2$CR上の現在の最先端CDCRモデルより優れたベースラインモデルを提供する。
当社のデータセット、アノテーションツール、ガイドライン、およびクロスドキュメントのクロスドメインコリファレンスモデルはすべて、オープンソースリソースとして提供されています。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Knowledge-Driven Cross-Document Relation Extraction [3.868708275322908]
関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。
本稿では,文書横断REのための入力テキストにエンティティのドメイン知識を組み込む新しい手法KXDocREを提案する。
論文 参考訳(メタデータ) (2024-05-22T11:30:59Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Entity-centered Cross-document Relation Extraction [34.38369224008656]
関係抽出(RE)は情報抽出の基本的な課題であり,多くの研究が注目されている。
従来の研究は文や文書内の関係の抽出に重点を置いていたが、現在研究者はクロスドキュメントREを探求している。
本稿では,これらの不足に対処し,クロスドキュメントREの最先端を推し進めることを目的としている。
論文 参考訳(メタデータ) (2022-10-29T09:27:15Z) - Cross-document Event Coreference Search: Task, Dataset and Modeling [26.36068336169796]
我々は、タスクのために、魅力的な、より適用可能な補完的な設定 - クロスドキュメントの参照検索を提案する。
このタスクの研究を支援するために、Wikipediaから派生した対応するデータセットを作成します。
本稿では,強力なコア参照スコアリング方式をDPRアーキテクチャに統合し,性能を向上する新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-10-23T08:21:25Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z) - SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts [28.96683772139377]
我々は、科学論文における概念のための階層的CDCRの新しいタスクを提示する。
目標は、コアファレンスクラスタとそれらの間の階層を共同で推論することです。
このタスクのエキスパートアノテーションデータセットであるSciCoを作成します。これは、著名なECB+リソースよりも3倍大きいです。
論文 参考訳(メタデータ) (2021-04-18T10:42:20Z) - WEC: Deriving a Large-scale Cross-document Event Coreference dataset
from Wikipedia [14.324743524196874]
本稿では,ウィキペディアからのクロスドキュメントイベントコアスのための大規模データセット収集のための効率的な手法であるウィキペディアイベントコアス(WEC)を提案する。
この手法を英語ウィキペディアに適用し,大規模wec-engデータセットを抽出する。
我々は,ドキュメント内コリファレンス解決のために最先端モデルのコンポーネントをクロスドキュメント設定に適応させるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-04-11T14:54:35Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。