論文の概要: Generalizing Cross-Document Event Coreference Resolution Across Multiple
Corpora
- arxiv url: http://arxiv.org/abs/2011.12249v2
- Date: Thu, 10 Jun 2021 18:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:10:47.159555
- Title: Generalizing Cross-Document Event Coreference Resolution Across Multiple
Corpora
- Title(参考訳): 複数のコーパスにまたがるクロスドキュメントイベントコリファレンス解決の一般化
- Authors: Michael Bugert and Nils Reimers and Iryna Gurevych
- Abstract要約: クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合全体にわたってイベントの特定とクラスタ化を行う必要があるNLPタスクである。
CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目標としているが、CDCRの適用による改善はまだ示されていない。
これまでのCDCRシステムは,1つのコーパスでのみ開発,トレーニング,テストが行われた。
- 参考スコア(独自算出の注目度): 63.429307282665704
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Cross-document event coreference resolution (CDCR) is an NLP task in which
mentions of events need to be identified and clustered throughout a collection
of documents. CDCR aims to benefit downstream multi-document applications, but
despite recent progress on corpora and system development, downstream
improvements from applying CDCR have not been shown yet. We make the
observation that every CDCR system to date was developed, trained, and tested
only on a single respective corpus. This raises strong concerns on their
generalizability -- a must-have for downstream applications where the magnitude
of domains or event mentions is likely to exceed those found in a curated
corpus. To investigate this assumption, we define a uniform evaluation setup
involving three CDCR corpora: ECB+, the Gun Violence Corpus and the Football
Coreference Corpus (which we reannotate on token level to make our analysis
possible). We compare a corpus-independent, feature-based system against a
recent neural system developed for ECB+. Whilst being inferior in absolute
numbers, the feature-based system shows more consistent performance across all
corpora whereas the neural system is hit-and-miss. Via model introspection, we
find that the importance of event actions, event time, etc. for resolving
coreference in practice varies greatly between the corpora. Additional analysis
shows that several systems overfit on the structure of the ECB+ corpus. We
conclude with recommendations on how to achieve generally applicable CDCR
systems in the future -- the most important being that evaluation on multiple
CDCR corpora is strongly necessary. To facilitate future research, we release
our dataset, annotation guidelines, and system implementation to the public.
- Abstract(参考訳): クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合を通してイベントの特定とクラスタ化を行う必要があるNLPタスクである。
CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目的としているが、コーパスとシステム開発が最近進歩しているにもかかわらず、CDCRの適用によるダウンストリームの改善はまだ示されていない。
これまでのcdcrシステムは、それぞれ1つのコーパス上でのみ、開発、訓練、テストが行われた。
これは、整列されたコーパスにあるものよりもドメインの大きさやイベントへの言及が大きい下流アプリケーションに必要な、その一般化可能性に対する強い懸念を引き起こす。
そこで,本研究では,cdcrコーパスとして,ecb+,銃暴力コーパス,サッカーコリファレンスコーパスの3つのコーパス(トークンレベルで再注釈し,分析を可能にする)を用いた一様評価設定を定式化する。
我々は、コーパスに依存しない機能ベースのシステムを、ECB+向けに開発された最近のニューラルネットワークと比較する。
絶対数では劣るが、機能ベースのシステムは全てのコーパスに対してより一貫性のある性能を示す。
モデルイントロスペクションにより,コア参照の解決におけるイベントアクションやイベント時間などの重要性は,コーパス間で大きく異なることがわかった。
追加分析では、いくつかのシステムがECB+コーパスの構造に過度に適合していることが示されている。
今後,適用可能なCDCRシステムを実現するための推奨事項として,複数のCDCRコーパスの評価が不可欠である点が重要となる。
今後の研究を促進するため,我々はデータセット,ガイドライン,システム実装を一般公開した。
関連論文リスト
- On the Vulnerability of Applying Retrieval-Augmented Generation within
Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Okay, Let's Do This! Modeling Event Coreference with Generated Rationales and Knowledge Distillation [6.102274021710727]
イベント参照解決(ECR)は、同じ実際のイベントを参照するイベントクラスタを接続するタスクである。
本研究では,現代の自己回帰 LLM によって生成される帰納的自由文論理(FTR)を用いて検討する。
イベント・コアス・スコアリングのための新しい合理的なイベント・クラスタリングと知識蒸留手法を実装した。
論文 参考訳(メタデータ) (2024-04-04T04:49:46Z) - CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks [111.13988772503511]
知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
論文 参考訳(メタデータ) (2024-02-26T17:35:44Z) - Accurate and Well-Calibrated ICD Code Assignment Through Attention Over
Diverse Label Embeddings [1.201425717264024]
ICDコードを臨床テキストに手動で割り当てるのは、時間がかかり、エラーが発生し、コストがかかる。
本稿では,ICDの自動符号化のための新しい手法について述べる。
MIMIC-IIIデータセットの異なる分割による実験は、提案手法がICD符号化における現在の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-05T16:40:23Z) - tieval: An Evaluation Framework for Temporal Information Extraction
Systems [2.3035364984111495]
過去20年間、時間的情報抽出は大きな関心を集めてきた。
大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。
tievalはPythonライブラリで、異なるコーパスをインポートするための簡潔なインターフェースを提供し、システム評価を容易にする。
論文 参考訳(メタデータ) (2023-01-11T18:55:22Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Qualitative and Quantitative Analysis of Diversity in Cross-document
Coreference Resolution Datasets [9.379650501033465]
CDCR(Cross-document coreference resolution)データセットには、ID関係を持つコア参照チェーンを形成するイベントやエンティティについて、手動で注釈付けされたイベント中心の言及が含まれている。
ECB+は最先端のCDCRデータセットであり、イベントとその説明的属性の解決に焦点を当てている。
NewsWCL50は、イベントとエンティティのコア参照チェーンを、単語選択の強いばらつきで注釈付けするデータセットである。
論文 参考訳(メタデータ) (2021-09-11T10:33:17Z) - Batch Coherence-Driven Network for Part-aware Person Re-Identification [79.33809815035127]
既存のパートアウェアの人物再識別方法は、通常、ボディ部分の検出と部分レベルの特徴抽出という2つのステップを使用する。
トレーニングフェーズとテストフェーズの両方で身体の一部をバイパスし,セマンティックに整合した機能を実現するNetworkBCDNetを提案する。
論文 参考訳(メタデータ) (2020-09-21T09:04:13Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。