論文の概要: LegalCore: A Dataset for Event Coreference Resolution in Legal Documents
- arxiv url: http://arxiv.org/abs/2502.12509v4
- Date: Thu, 20 Mar 2025 16:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:32:46.731330
- Title: LegalCore: A Dataset for Event Coreference Resolution in Legal Documents
- Title(参考訳): LegalCore: 法的文書におけるイベント参照解決のためのデータセット
- Authors: Kangda Wei, Xi Shi, Jonathan Tong, Sai Ramana Reddy, Anandhavelu Natarajan, Rajiv Jain, Aparna Garimella, Ruihong Huang,
- Abstract要約: われわれは、法的ドメインであるLegalCoreの最初のデータセットを、包括的なイベントとイベントコア情報で注釈付けした形で提示する。
このデータセットにアノテートした法律上の契約文書は、ニュース記事の何倍も長く、1ドキュメントあたりの平均トークン数は25万である。
このデータセットでは、イベント検出とイベントコア参照解決の両方のタスクに対して、主流のLarge Language Modelsをベンチマークします。
- 参考スコア(独自算出の注目度): 21.113915852038552
- License:
- Abstract: Recognizing events and their coreferential mentions in a document is essential for understanding semantic meanings of text. The existing research on event coreference resolution is mostly limited to news articles. In this paper, we present the first dataset for the legal domain, LegalCore, which has been annotated with comprehensive event and event coreference information. The legal contract documents we annotated in this dataset are several times longer than news articles, with an average length of around 25k tokens per document. The annotations show that legal documents have dense event mentions and feature both short-distance and super long-distance coreference links between event mentions. We further benchmark mainstream Large Language Models (LLMs) on this dataset for both event detection and event coreference resolution tasks, and find that this dataset poses significant challenges for state-of-the-art open-source and proprietary LLMs, which perform significantly worse than a supervised baseline. We will publish the dataset as well as the code.
- Abstract(参考訳): 文書中の出来事とその中核的な言及を認識することは、テキストの意味の意味を理解するのに不可欠である。
イベントコア参照解決に関する既存の研究は、主にニュース記事に限られている。
本稿では,法域における最初のデータセットであるLegalCoreについて述べる。
このデータセットにアノテートした法律上の契約文書は、ニュース記事の何倍も長く、1ドキュメントあたりの平均トークン数は25万である。
アノテーションは、法律文書にはイベント参照が密集しており、イベント参照間の短距離と超長距離のコア参照リンクの両方が特徴であることを示している。
さらに、このデータセット上で、イベント検出とイベントコア参照解決の両方のタスクに対して、主要なLarge Language Models (LLM) をベンチマークし、このデータセットが最先端のオープンソースおよびプロプライエタリなLCMに重大な課題をもたらすことを発見した。
データセットとコードを公開します。
関連論文リスト
- Enhancing Cross-Document Event Coreference Resolution by Discourse Structure and Semantic Information [33.21818213257603]
クロスドキュメントのイベントコア参照解決モデルは、参照の類似性を直接計算するか、イベント引数を抽出することで参照表現を強化することができる。
本稿では,文書の構造的・意味的情報をモデル化するために,文書レベルのレトリック構造理論(RST)木とクロスドキュメントのレキシカル・チェーンの構築を提案する。
このギャップを埋めるために、大規模な中国のクロスドキュメントイベントコアデータセットを開発した。
論文 参考訳(メタデータ) (2024-06-23T02:54:48Z) - MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation [104.6065882758648]
MAVEN-Argは、イベント検出、イベント引数抽出、イベント関係抽出をサポートする最初のオールインワンデータセットである。
EAEベンチマークでは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)EAEのすべてのタスク変種をサポートする包括的なアノテーションの3つの利点がある。
論文 参考訳(メタデータ) (2023-11-15T16:52:14Z) - FAMuS: Frames Across Multiple Sources [74.03795560933612]
FAMuSはウィキペディアの節集の新たなコーパスで、あるイベントにエンフレポートし、同じイベントのための基礎となるジャンルディバース(非ウィキペディア)のemphsource記事と組み合わせている。
FAMuSによって実現された2つの重要な事象理解タスクについて報告する。
論文 参考訳(メタデータ) (2023-11-09T18:57:39Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - GLEN: General-Purpose Event Detection for Thousands of Types [80.99866527772512]
汎用的なイベント検出データセットGLENを構築し、205Kイベントの参照を3,465種類の異なるタイプでカバーしています。
GLENはオントロジーにおいて、今日の最大のイベントデータセットよりも20倍大きい。
また,GLENの大規模化に特化して設計された多段階イベント検出モデルCEDARを提案する。
論文 参考訳(メタデータ) (2023-03-16T05:36:38Z) - Cross-document Event Coreference Search: Task, Dataset and Modeling [26.36068336169796]
我々は、タスクのために、魅力的な、より適用可能な補完的な設定 - クロスドキュメントの参照検索を提案する。
このタスクの研究を支援するために、Wikipediaから派生した対応するデータセットを作成します。
本稿では,強力なコア参照スコアリング方式をDPRアーキテクチャに統合し,性能を向上する新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-10-23T08:21:25Z) - LEVEN: A Large-Scale Chinese Legal Event Detection Dataset [82.44096140591675]
大規模な中国のLegal eVENt検出データセットであるLEVENを,8,116件の法的文書と150,977件の人為的注釈付きイベントを108件のイベントタイプで紹介した。
LEVENは法定事象検出データセットとしては最大であり、他のデータスケールの数十倍の規模を持ち、LEDメソッドのトレーニングと評価を著しく促進する。
論文 参考訳(メタデータ) (2022-03-16T11:40:02Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Cross-document Event Identity via Dense Annotation [9.163142877146512]
我々は、異なる文書からテキストイベントの同一性を研究する。
本稿では,クロスドキュメント・イベント・コアのための高密度アノテーション手法を提案する。
クロスドキュメントイベントコアのためのオープンアクセスデータセットを提案する。
論文 参考訳(メタデータ) (2021-09-14T03:57:58Z) - WEC: Deriving a Large-scale Cross-document Event Coreference dataset
from Wikipedia [14.324743524196874]
本稿では,ウィキペディアからのクロスドキュメントイベントコアスのための大規模データセット収集のための効率的な手法であるウィキペディアイベントコアス(WEC)を提案する。
この手法を英語ウィキペディアに適用し,大規模wec-engデータセットを抽出する。
我々は,ドキュメント内コリファレンス解決のために最先端モデルのコンポーネントをクロスドキュメント設定に適応させるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-04-11T14:54:35Z) - Seeing the Forest and the Trees: Detection and Cross-Document
Coreference Resolution of Militarized Interstate Disputes [3.8073142980733]
テキスト中の特定の政治事象を識別し、共有イベントに基づいて関連テキストを相互にリンクする手法を評価するためのデータセットを提供する。
データセットであるHeadlines of Warは、Militarized Interstate Disputesデータセットに基づいて構築され、問題ステータスとコア参照インジケータでラベル付けされた見出しペアによって分類された見出しを提供する。
このマルチタスク畳み込みニューラルネットワークは,見出しのテキストや出版日時からイベントやイベントのコアを認識できることが示されている。
論文 参考訳(メタデータ) (2020-05-06T17:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。