論文の概要: Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference
- arxiv url: http://arxiv.org/abs/2602.17424v1
- Date: Thu, 19 Feb 2026 14:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.106258
- Title: Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference
- Title(参考訳): 異語選択と類似: 語彙とリッチの相互文書照合のアノテーション
- Authors: Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp,
- Abstract要約: CDCR(Cross-document coreference resolution)は、関連するドキュメント間で同じエンティティやイベントの言及を識別し、リンクする。
本稿では、NewsWCL50データセットのCDCRアノテーションを改訂し、コア参照連鎖を談話要素(DE)および分析単位として扱うことを提案する。
- 参考スコア(独自算出の注目度): 6.567749530541648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-document coreference resolution (CDCR) identifies and links mentions of the same entities and events across related documents, enabling content analysis that aggregates information at the level of discourse participants. However, existing datasets primarily focus on event resolution and employ a narrow definition of coreference, which limits their effectiveness in analyzing diverse and polarized news coverage where wording varies widely. This paper proposes a revised CDCR annotation scheme of the NewsWCL50 dataset, treating coreference chains as discourse elements (DEs) and conceptual units of analysis. The approach accommodates both identity and near-identity relations, e.g., by linking "the caravan" - "asylum seekers" - "those contemplating illegal entry", allowing models to capture lexical diversity and framing variation in media discourse, while maintaining the fine-grained annotation of DEs. We reannotate the NewsWCL50 and a subset of ECB+ using a unified codebook and evaluate the new datasets through lexical diversity metrics and a same-head-lemma baseline. The results show that the reannotated datasets align closely, falling between the original ECB+ and NewsWCL50, thereby supporting balanced and discourse-aware CDCR research in the news domain.
- Abstract(参考訳): CDCR(Cross-document coreference resolution)は、関連文書にまたがる同一のエンティティやイベントの言及を識別し、リンクし、談話参加者のレベルで情報を集約するコンテンツ分析を可能にする。
しかし、既存のデータセットは、主にイベント解決に焦点をあて、コア参照の定義を狭くし、ワードが広く変化する多様で偏在的なニュースカバレッジの分析において、その有効性を制限している。
本稿では、NewsWCL50データセットのCDCRアノテーションを改訂し、コア参照連鎖を談話要素(DE)として扱い、分析の概念単位として扱うことを提案する。
このアプローチは、例えば、"caravan" - "asylum seekers" - "those conteming illegal entry"をリンクすることで、メディアの言論における語彙の多様性とフレーミングのバリエーションを捉えながら、DESの細かいアノテーションを維持しながら、モデルが取得できる。
我々は、統一されたコードブックを使用して、NewsWCL50とECB+のサブセットを再注釈し、語彙多様性メトリクスと同じ頭字語ベースラインを使用して、新しいデータセットを評価する。
その結果、再注釈されたデータセットはECB+とNewsWCL50の間で密接に一致し、ニュース領域におけるバランスのとれたCDCR研究をサポートすることがわかった。
関連論文リスト
- Embedding-Based Context-Aware Reranker [11.885086835801523]
Retrieval-Augmented Generation (RAG) システムは、下流生成をサポートするためにコーパスから関連する証拠を取得することに依存している。
本稿では,検索したパスの埋め込みを直接操作する軽量なリグレードフレームワークである Embedding-based Context-Aware Reranker (EBCAR) を提案する。
ConTEBベンチマークを用いて,SOTAリランカに対するEBCARの評価を行い,クロスパス推論を必要とする情報検索の有効性を実証した。
論文 参考訳(メタデータ) (2025-10-15T09:14:04Z) - Towards Knowledge-Aware Document Systems: Modeling Semantic Coverage Relations via Answerability Detection [40.12543056558646]
本稿では,セマンティックカバレッジ関係(SCR)をモデル化するための新しいフレームワークを提案する。
等価性、包摂性、セマンティックオーバーラップという3つのコア関係タイプを定義します。
質問応答(QA)に基づくアプローチでは,文書間で共有された質問の応答可能性を意味的カバレッジの指標として活用する。
論文 参考訳(メタデータ) (2025-09-10T06:00:01Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Code Book for the Annotation of Diverse Cross-Document Coreference of
Entities in News Articles [0.0]
それぞれのアノテーションツールであるインセプションのセットアップ方法や、ニュース記事のエンティティの注釈付け方法、様々な中核関係とリンクする方法、Wikidataのグローバルな知識グラフへのドキュメントのリンクなど、詳細な説明が含まれている。
我々の主な貢献は、単語選択とラベル付けによるメディアバイアスの分析に適用可能な、多種多様なクロスドキュメント・コア参照コーパスを作成するための方法論を提供することである。
論文 参考訳(メタデータ) (2023-10-18T15:53:45Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - XCoref: Cross-document Coreference Resolution in the Wild [8.586057042714698]
ブリッジングと緩やかなコア推論の関係は、ニュース読者を単語の選択やラベル付けによって偏見に晒す恐れのある関連を引き起こす。
単語の選択とラベル付けによってバイアスの認識をもたらすためのステップは、高い語彙的多様性を持つコア推論の信頼性の高い解決である。
ドナルド・トランプ(Donald Trump)のような人物を包括的に解決するCDCR手法であるXCorefという教師なしの手法を提案する。
我々は,提案したXCorefと最先端CDCR法と,そのような複雑なコア参照関係を解く先行手法TCAを比較した。
論文 参考訳(メタデータ) (2021-09-11T10:41:09Z) - Qualitative and Quantitative Analysis of Diversity in Cross-document
Coreference Resolution Datasets [9.379650501033465]
CDCR(Cross-document coreference resolution)データセットには、ID関係を持つコア参照チェーンを形成するイベントやエンティティについて、手動で注釈付けされたイベント中心の言及が含まれている。
ECB+は最先端のCDCRデータセットであり、イベントとその説明的属性の解決に焦点を当てている。
NewsWCL50は、イベントとエンティティのコア参照チェーンを、単語選択の強いばらつきで注釈付けするデータセットである。
論文 参考訳(メタデータ) (2021-09-11T10:33:17Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。