論文の概要: Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification
- arxiv url: http://arxiv.org/abs/2603.00621v2
- Date: Tue, 03 Mar 2026 13:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.53547
- Title: Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification
- Title(参考訳): 相互文書照合解決データセットのピアス:体系的データセット分析と統一
- Authors: Anastasia Zhukova, Terry Ruas, Jan Philip Wahle, Bela Gipp,
- Abstract要約: CDCRの研究は、異質なデータセットフォーマット、様々なアノテーション標準、およびイベントコア参照解決(ECR)としてのCDCR定義の優位性により、依然として断片化されている。
UCDCRは、様々なドメインで利用可能な多種多様な英語CDCRコーパスを一貫したフォーマットに統合する統合データセットである。
- 参考スコア(独自算出の注目度): 11.500610343396955
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Research in CDCR remains fragmented due to heterogeneous dataset formats, varying annotation standards, and the predominance of the CDCR definition as the event coreference resolution (ECR). To address these challenges, we introduce uCDCR, a unified dataset that consolidates diverse publicly available English CDCR corpora across various domains into a consistent format, which we analyze with standardized metrics and evaluation protocols. uCDCR incorporates both entity and event coreference, corrects known inconsistencies, and enriches datasets with missing attributes to facilitate reproducible research. We establish a cohesive framework for fair, interpretable, and cross-dataset analysis in CDCR and compare the datasets on their lexical properties, e.g., lexical composition of the annotated mentions, lexical diversity and ambiguity metrics, discuss the annotation rules and principles that lead to high lexical diversity, and examine how these metrics influence performance on the same-head-lemma baseline. Our dataset analysis shows that ECB+, the state-of-the-art benchmark for CDCR, has one of the lowest lexical diversities, and its CDCR complexity, measured by the same-head-lemma baseline, lies in the middle among all uCDCR datasets. Moreover, comparing document and mention distributions between ECB+ and uCDCR shows that using all uCDCR datasets for model training and evaluation will improve the generalizability of CDCR models. Finally, the almost identical performance on the same-head-lemma baseline, separately applied to events and entities, shows that resolving both types is a complex task and should not be steered toward ECR alone. The uCDCR dataset is available at https://huggingface.co/datasets/AnZhu/uCDCR, and the code for parsing, analyzing, and scoring the dataset is available at https://github.com/anastasia-zhukova/uCDCR.
- Abstract(参考訳): CDCRの研究は、異種データセットフォーマット、様々なアノテーション標準、およびイベントコア参照解決(ECR)としてのCDCR定義の優位性により、いまだに断片化されている。
これらの課題に対処するために、uCDCRを導入し、様々なドメインで利用可能な多種多様な英語CDCRコーパスを一貫したフォーマットに集約し、標準化されたメトリクスと評価プロトコルを用いて分析する。
uCDCRにはエンティティとイベントのコア推論の両方が組み込まれており、既知の不整合を補正し、再現可能な研究を容易にするために、欠落した属性でデータセットを強化している。
本研究は,CDCRにおける公平かつ解釈可能なクロスデータセット分析のための凝集型フレームワークを構築し,注釈付き言及の語彙的構成,語彙的多様性,曖昧性指標などの語彙的特性に関するデータセットを比較し,高い語彙的多様性をもたらすアノテーション規則と原則について議論し,これらの指標が同一頭字語ベースラインのパフォーマンスにどのように影響するかを検討する。
筆者らのデータセット分析によると,CDCRの最先端ベンチマークであるECB+は,最も低い語彙的多様性の1つであり,そのCDCRの複雑さは,すべてのUCCRデータセットの中間に位置する。
さらに、ECB+ と uCDCR の文書分布と言及分布を比較し、モデルトレーニングと評価に uCDCR データセットを全て使用することで、CDCR モデルの一般化性が向上することを示した。
最後に、イベントとエンティティを別々に適用した、同じヘッドレンマベースラインでのほぼ同じパフォーマンスは、両方のタイプの解決は複雑なタスクであり、ECRのみを対象としているべきではないことを示している。
uCDCRデータセットはhttps://huggingface.co/datasets/AnZhu/uCDCRで、データセットを解析、分析、評価するためのコードはhttps://github.com/anastasia-zhukova/uCDCRで入手できる。
関連論文リスト
- Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference [6.567749530541648]
CDCR(Cross-document coreference resolution)は、関連するドキュメント間で同じエンティティやイベントの言及を識別し、リンクする。
本稿では、NewsWCL50データセットのCDCRアノテーションを改訂し、コア参照連鎖を談話要素(DE)および分析単位として扱うことを提案する。
論文 参考訳(メタデータ) (2026-02-19T14:56:01Z) - DiffRegCD: Integrated Registration and Change Detection with Diffusion Features [74.3102451211493]
DiffRegCDは、単一のモデルで密度の高い登録と変更検出を統一する統合フレームワークである。
空中(LEVIR-CD, DSIFN-CD, WHU-CD, SYSU-CD)と地上(VL-CMU-CD)のデータセットによる実験は、DiffRegCDが最近のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-11T07:32:19Z) - Improving OCR using internal document redundancy [5.123479119457136]
文書内の文字形状の冗長性を利用して、与えられたOCRシステムの不完全な出力を補正する教師なし手法を提案する。
回復したウルグアイ軍文書や17世紀から20世紀半ばのヨーロッパの新聞など、さまざまなレベルの文書の劣化を実証する。
論文 参考訳(メタデータ) (2025-08-20T09:21:43Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks [46.89839054706183]
CROC(Contrastive Robustness Checks)を提案する。
我々は100万以上の対照的なプロンプトイメージ対の擬似ラベル付きデータセットを生成する。
また、このデータセットを使ってCROCScoreをトレーニングしています。
論文 参考訳(メタデータ) (2025-05-16T14:39:44Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation [39.83221375597683]
Retrieval-augmented Generation (RAG)は、幻覚を抑えるために外部知識を統合することで、言語モデル(LLM)を強化する。
RAGの本質的な部分として、光学文字認識(OCR)を用いて構造化されていないPDF文書から構造化されたデータを抽出して外部知識ベースを構築することが一般的である。
本稿では,RAGシステムにおけるOCRのカスケード効果を理解するための最初のベンチマークであるOHRBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-03T17:23:47Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Qualitative and Quantitative Analysis of Diversity in Cross-document
Coreference Resolution Datasets [9.379650501033465]
CDCR(Cross-document coreference resolution)データセットには、ID関係を持つコア参照チェーンを形成するイベントやエンティティについて、手動で注釈付けされたイベント中心の言及が含まれている。
ECB+は最先端のCDCRデータセットであり、イベントとその説明的属性の解決に焦点を当てている。
NewsWCL50は、イベントとエンティティのコア参照チェーンを、単語選択の強いばらつきで注釈付けするデータセットである。
論文 参考訳(メタデータ) (2021-09-11T10:33:17Z) - Generalizing Cross-Document Event Coreference Resolution Across Multiple
Corpora [63.429307282665704]
クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合全体にわたってイベントの特定とクラスタ化を行う必要があるNLPタスクである。
CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目標としているが、CDCRの適用による改善はまだ示されていない。
これまでのCDCRシステムは,1つのコーパスでのみ開発,トレーニング,テストが行われた。
論文 参考訳(メタデータ) (2020-11-24T17:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。