論文の概要: LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
- arxiv url: http://arxiv.org/abs/2203.08556v1
- Date: Wed, 16 Mar 2022 11:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:48:36.403871
- Title: LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
- Title(参考訳): LEVEN:中国の大規模法律イベント検出データセット
- Authors: Feng Yao, Chaojun Xiao, Xiaozhi Wang, Zhiyuan Liu, Lei Hou, Cunchao
Tu, Juanzi Li, Yun Liu, Weixing Shen, Maosong Sun
- Abstract要約: 大規模な中国のLegal eVENt検出データセットであるLEVENを,8,116件の法的文書と150,977件の人為的注釈付きイベントを108件のイベントタイプで紹介した。
LEVENは法定事象検出データセットとしては最大であり、他のデータスケールの数十倍の規模を持ち、LEDメソッドのトレーニングと評価を著しく促進する。
- 参考スコア(独自算出の注目度): 82.44096140591675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing facts is the most fundamental step in making judgments, hence
detecting events in the legal documents is important to legal case analysis
tasks. However, existing Legal Event Detection (LED) datasets only concern
incomprehensive event types and have limited annotated data, which restricts
the development of LED methods and their downstream applications. To alleviate
these issues, we present LEVEN a large-scale Chinese LEgal eVENt detection
dataset, with 8,116 legal documents and 150,977 human-annotated event mentions
in 108 event types. Not only charge-related events, LEVEN also covers general
events, which are critical for legal case understanding but neglected in
existing LED datasets. To our knowledge, LEVEN is the largest LED dataset and
has dozens of times the data scale of others, which shall significantly promote
the training and evaluation of LED methods. The results of extensive
experiments indicate that LED is challenging and needs further effort.
Moreover, we simply utilize legal events as side information to promote
downstream applications. The method achieves improvements of average 2.2 points
precision in low-resource judgment prediction, and 1.5 points mean average
precision in unsupervised case retrieval, which suggests the fundamentality of
LED. The source code and dataset can be obtained from
https://github.com/thunlp/LEVEN.
- Abstract(参考訳): 事実を認識することは、判断を行う上で最も基本的なステップであり、それゆえ、法的文書の出来事を検出することは、訴訟分析タスクにおいて重要である。
しかし、既存の法定イベント検出(LED)データセットは、包括的イベントタイプのみに関心を持ち、注釈付きデータしか持たないため、LEDメソッドとその下流アプリケーションの開発が制限される。
これらの問題を緩和するために,8,116件の法的文書と150,977件の人間が注釈付きイベントを108のイベントタイプで記述した,大規模な中国の法的イベント検出データセットをlevenに提示する。
チャージ関連のイベントだけでなく、levenは一般的なイベントもカバーする。これは訴訟理解に極めて重要であるが、既存のledデータセットでは無視されている。
我々の知る限り、LEVENは最大のLEDデータセットであり、他の数十倍のデータスケールを持ち、LEDメソッドのトレーニングと評価を著しく促進します。
広範な実験の結果、ledはチャレンジであり、さらなる努力が必要であることを示している。
さらに、法律イベントをサイド情報として単純に利用して下流アプリケーションを促進する。
本手法は、低リソース判定予測における平均2.2点精度の改善と、教師なしケース検索における平均1.5点精度の向上を実現し、LEDの基本性を示している。
ソースコードとデータセットはhttps://github.com/thunlp/LEVENから取得できる。
関連論文リスト
- Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。
イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文 参考訳(メタデータ) (2024-03-05T01:46:50Z) - LeCaRDv2: A Large-Scale Chinese Legal Case Retrieval Dataset [20.315416393247247]
大規模法ケース検索データセットLeCaRDv2(バージョン2)を紹介する。
800のクエリと430万件の刑事事件文書から抽出された55,192の候補で構成されている。
評価,ペナルティ,手順の3つの重要な側面を考慮し,既存の関連基準を充実させる。
データセットのすべてのケースは、刑事法を専門とする複数の法律専門家によって注釈付けされています。
論文 参考訳(メタデータ) (2023-10-26T17:32:55Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - GLEN: General-Purpose Event Detection for Thousands of Types [80.99866527772512]
汎用的なイベント検出データセットGLENを構築し、205Kイベントの参照を3,465種類の異なるタイプでカバーしています。
GLENはオントロジーにおいて、今日の最大のイベントデータセットよりも20倍大きい。
また,GLENの大規模化に特化して設計された多段階イベント検出モデルCEDARを提案する。
論文 参考訳(メタデータ) (2023-03-16T05:36:38Z) - ClassActionPrediction: A Challenging Benchmark for Legal Judgment
Prediction of Class Action Cases in the US [0.0]
米国におけるクラスアクションケースに焦点を当てた、挑戦的なLJPデータセットを初めてリリースしました。
これは、裁判所がしばしば使用する事実の要約ではなく、苦情を入力として含む、より難しくより現実的なタスクに焦点を当てた、共通の法体系における最初のデータセットである。
我々のLongformerモデルは、最初の2,048トークンしか考慮していないにもかかわらず、明らかに人間のベースライン(63%)を上回っている。さらに、詳細なエラー解析を行い、Longformerモデルが人間の専門家よりも格付けがかなり優れていることを発見した。
論文 参考訳(メタデータ) (2022-11-01T16:57:59Z) - MAVEN: A Massive General Domain Event Detection Dataset [56.00401399384715]
イベント検出(ED)は、プレーンテキストからイベント知識を抽出する最初の、最も基本的なステップである。
既存のデータセットは、EDのさらなる開発を制限する問題を示す。
我々は,4,480のウィキペディア文書,118,732のイベント参照インスタンス,168のイベントタイプを含むMAVEN(Massive eVENt detection dataset)を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:25:19Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。