論文の概要: Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference
- arxiv url: http://arxiv.org/abs/2110.05362v1
- Date: Mon, 11 Oct 2021 15:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:22:50.067461
- Title: Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference
- Title(参考訳): 問題に焦点をあてて: 談話コヒーレンス理論をクロスドキュメント・コヒーレンスに適用する
- Authors: William Held, Dan Iter, Dan Jurafsky
- Abstract要約: ドキュメント間でのイベントとエンティティのコア参照の解決は、候補参照の数を大幅に増加させ、完全な$n2$ペアワイズ比較を行うことを難しくする。
既存のアプローチでは、ドキュメントクラスタ内でのコア参照のみを考慮することで単純化されているが、クラスタ間のコア参照を処理できない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
本手法は,ECB+,ガン・バイオレンス,フットボール・コアス,クロスドメイン・クロスドキュメント・コアス・コーパスにおけるイベントとエンティティの両面での最先端の成果を達成する。
- 参考スコア(独自算出の注目度): 22.497877069528087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing event and entity coreference resolution across documents vastly
increases the number of candidate mentions, making it intractable to do the
full $n^2$ pairwise comparisons. Existing approaches simplify by considering
coreference only within document clusters, but this fails to handle
inter-cluster coreference, common in many applications. As a result
cross-document coreference algorithms are rarely applied to downstream tasks.
We draw on an insight from discourse coherence theory: potential coreferences
are constrained by the reader's discourse focus. We model the entities/events
in a reader's focus as a neighborhood within a learned latent embedding space
which minimizes the distance between mentions and the centroids of their gold
coreference clusters. We then use these neighborhoods to sample only hard
negatives to train a fine-grained classifier on mention pairs and their local
discourse features. Our approach achieves state-of-the-art results for both
events and entities on the ECB+, Gun Violence, Football Coreference, and
Cross-Domain Cross-Document Coreference corpora. Furthermore, training on
multiple corpora improves average performance across all datasets by 17.2 F1
points, leading to a robust coreference resolution model for use in downstream
tasks where link distribution is unknown.
- Abstract(参考訳): ドキュメント間でイベントとエンティティの相互参照解決を行うことで、候補への言及数が大幅に増加するため、完全な$n^2$対比較を行うことが困難になる。
既存のアプローチでは、ドキュメントクラスタ内でのみコア参照を考慮することで、単純化されている。
その結果、ダウンストリームタスクにクロスドキュメントコリファレンスアルゴリズムを適用することは滅多にない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
我々は、読者の焦点におけるエンティティ/イベントを学習潜在埋め込み空間内の近傍としてモデル化し、言及とゴールドコリファレンスクラスタのセントロイド間の距離を最小化する。
次に、これらの近傍を用いてハードネガティブのみをサンプリングし、参照ペアとその局所的な談話特徴についてきめ細かい分類器を訓練する。
当社のアプローチは、ecb+、銃暴力、サッカーのコリファレンス、およびクロスドメインのクロスドキュメントコリファレンスコーパスに関するイベントとエンティティの両方の最先端の結果を達成します。
さらに、複数のコーパスのトレーニングにより、すべてのデータセットの平均パフォーマンスが17.2F1ポイント向上し、リンク分布が不明な下流タスクで使用する堅牢なコア参照解決モデルが実現される。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Enhancing Cross-Document Event Coreference Resolution by Discourse Structure and Semantic Information [33.21818213257603]
クロスドキュメントのイベントコア参照解決モデルは、参照の類似性を直接計算するか、イベント引数を抽出することで参照表現を強化することができる。
本稿では,文書の構造的・意味的情報をモデル化するために,文書レベルのレトリック構造理論(RST)木とクロスドキュメントのレキシカル・チェーンの構築を提案する。
このギャップを埋めるために、大規模な中国のクロスドキュメントイベントコアデータセットを開発した。
論文 参考訳(メタデータ) (2024-06-23T02:54:48Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Exploiting Global Contextual Information for Document-level Named Entity
Recognition [46.99922251839363]
我々は、GCDoc(Global Context enhanced Document-level NER)と呼ばれるモデルを提案する。
単語レベルでは、文書グラフは単語間のより広範な依存関係をモデル化するために構築される。
文レベルでは、単一文を超えてより広い文脈を適切にモデル化するために、横断文モジュールを用いる。
我々のモデルは、CoNLL 2003データセットで92.22(BERTで93.40)、Ontonotes 5.0データセットで88.32(BERTで90.49)のスコアに達した。
論文 参考訳(メタデータ) (2021-06-02T01:52:07Z) - WEC: Deriving a Large-scale Cross-document Event Coreference dataset
from Wikipedia [14.324743524196874]
本稿では,ウィキペディアからのクロスドキュメントイベントコアスのための大規模データセット収集のための効率的な手法であるウィキペディアイベントコアス(WEC)を提案する。
この手法を英語ウィキペディアに適用し,大規模wec-engデータセットを抽出する。
我々は,ドキュメント内コリファレンス解決のために最先端モデルのコンポーネントをクロスドキュメント設定に適応させるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-04-11T14:54:35Z) - Efficient Clustering from Distributions over Topics [0.0]
本稿では,類似度関数を計算可能な文書の小さなサブセットを識別する手段として,コレクション内の文書上のトピックモデリングアルゴリズムの結果に依存するアプローチを提案する。
このアプローチは、科学出版分野における類似文書の特定において、有望な結果を得ることが証明されている。
論文 参考訳(メタデータ) (2020-12-15T10:52:19Z) - Segmentation Approach for Coreference Resolution Task [4.000580823870735]
コア参照の解決においては、コア参照クラスタのすべてのメンバを考慮し、それらすべてについて一度に決めることが重要です。
本稿では,文書に記載されているすべてのコア参照参照を1パスで解決する,コア参照解決のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-30T16:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。