論文の概要: Qualitative and Quantitative Analysis of Diversity in Cross-document
Coreference Resolution Datasets
- arxiv url: http://arxiv.org/abs/2109.05250v1
- Date: Sat, 11 Sep 2021 10:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 11:31:32.982827
- Title: Qualitative and Quantitative Analysis of Diversity in Cross-document
Coreference Resolution Datasets
- Title(参考訳): クロスドキュメントコリファレンス解像度データセットにおける多様性の質的・定量的解析
- Authors: Anastasia Zhukova, Felix Hamborg, and Bela Gipp
- Abstract要約: CDCR(Cross-document coreference resolution)データセットには、ID関係を持つコア参照チェーンを形成するイベントやエンティティについて、手動で注釈付けされたイベント中心の言及が含まれている。
ECB+は最先端のCDCRデータセットであり、イベントとその説明的属性の解決に焦点を当てている。
NewsWCL50は、イベントとエンティティのコア参照チェーンを、単語選択の強いばらつきで注釈付けするデータセットである。
- 参考スコア(独自算出の注目度): 9.379650501033465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-document coreference resolution (CDCR) datasets, such as ECB+, contain
manually annotated event-centric mentions of events and entities that form
coreference chains with identity relations. ECB+ is a state-of-the-art CDCR
dataset that focuses on the resolution of events and their descriptive
attributes, i.e., actors, location, and date-time. NewsWCL50 is a dataset that
annotates coreference chains of both events and entities with a strong variance
of word choice and more loosely-related coreference anaphora, e.g., bridging or
near-identity relations. In this paper, we qualitatively and quantitatively
compare annotation schemes of ECB+ and NewsWCL50 with multiple criteria. We
propose a phrasing diversity metric (PD) that compares lexical diversity within
coreference chains on a more detailed level than previously proposed metric,
e.g., a number of unique lemmas. We discuss the different tasks that both CDCR
datasets create, i.e., lexical disambiguation and lexical diversity challenges,
and propose a direction for further CDCR evaluation.
- Abstract(参考訳): ECB+のようなクロスドキュメントコア参照解決(CDCR)データセットには、イベントやエンティティの注釈付きイベント中心の言及が含まれている。
ECB+は最先端のCDCRデータセットであり、イベントの解決とその記述的属性(アクター、ロケーション、日付)に焦点を当てている。
newswcl50は、単語選択とより疎結合なコリファレンスアナフォラ、例えばブリッジや近接id関係の強い分散を持つ、イベントとエンティティの両方のコリファレンスチェーンに注釈をつけるデータセットである。
本稿では、ECB+とNewsWCL50のアノテーションスキームを複数の基準で質的に定量的に比較する。
本稿では,従来提案されていた多くのユニークな補題などよりも詳細なレベルで,コア参照チェーン内の語彙的多様性を比較するための表現的多様性計量(PD)を提案する。
両CDCRデータセットが生み出す様々なタスク、すなわち語彙的曖昧さと語彙的多様性の課題について議論し、さらなるCDCR評価の方向性を提案する。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - DEUCE: Dual-diversity Enhancement and Uncertainty-awareness for Cold-start Active Learning [54.35107462768146]
コールドスタートアクティブラーニング(CSAL)は、手動アノテーションのためのラベルなしデータセットから貴重なインスタンスを選択する。
既存のCSAL手法は、弱いクラスと強い代表例を見落とし、バイアス学習をもたらす。
本稿ではCSALのための新しい二変量拡張および不確実性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-01T04:00:03Z) - Diversity Over Quantity: A Lesson From Few Shot Relation Classification [62.66895901654023]
多様な関係の集合に対するトレーニングは、モデルが目に見えない関係を一般化する能力を大幅に向上させることを示す。
我々は、既存のデータセットよりも桁違いに多くの関係型を組み込んだ新しいFSRCベンチマークであるREBEL-FSを紹介する。
論文 参考訳(メタデータ) (2024-12-06T21:41:01Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Enhancing Cross-Document Event Coreference Resolution by Discourse Structure and Semantic Information [33.21818213257603]
クロスドキュメントのイベントコア参照解決モデルは、参照の類似性を直接計算するか、イベント引数を抽出することで参照表現を強化することができる。
本稿では,文書の構造的・意味的情報をモデル化するために,文書レベルのレトリック構造理論(RST)木とクロスドキュメントのレキシカル・チェーンの構築を提案する。
このギャップを埋めるために、大規模な中国のクロスドキュメントイベントコアデータセットを開発した。
論文 参考訳(メタデータ) (2024-06-23T02:54:48Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts [28.96683772139377]
我々は、科学論文における概念のための階層的CDCRの新しいタスクを提示する。
目標は、コアファレンスクラスタとそれらの間の階層を共同で推論することです。
このタスクのエキスパートアノテーションデータセットであるSciCoを作成します。これは、著名なECB+リソースよりも3倍大きいです。
論文 参考訳(メタデータ) (2021-04-18T10:42:20Z) - Sequential Cross-Document Coreference Resolution [14.099694053823765]
クロスドキュメントのコリファレンス解決は、マルチドキュメント分析タスクへの関心が高まる上で重要である。
コアファレンス分解能の効率的なシーケンシャル予測パラダイムを文書間設定に拡張する新しいモデルを提案する。
私たちのモデルは、参照をクラスタ表現にインクリメンタルに合成し、参照とすでに構築されたクラスタ間のリンクを予測する。
論文 参考訳(メタデータ) (2021-04-17T00:46:57Z) - Generalizing Cross-Document Event Coreference Resolution Across Multiple
Corpora [63.429307282665704]
クロスドキュメントイベントコア参照解決(CDCR)は、文書の集合全体にわたってイベントの特定とクラスタ化を行う必要があるNLPタスクである。
CDCRは、下流のマルチドキュメントアプリケーションに利益をもたらすことを目標としているが、CDCRの適用による改善はまだ示されていない。
これまでのCDCRシステムは,1つのコーパスでのみ開発,トレーニング,テストが行われた。
論文 参考訳(メタデータ) (2020-11-24T17:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。