論文の概要: LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
- arxiv url: http://arxiv.org/abs/2203.08556v1
- Date: Wed, 16 Mar 2022 11:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:48:36.403871
- Title: LEVEN: A Large-Scale Chinese Legal Event Detection Dataset
- Title(参考訳): LEVEN:中国の大規模法律イベント検出データセット
- Authors: Feng Yao, Chaojun Xiao, Xiaozhi Wang, Zhiyuan Liu, Lei Hou, Cunchao
Tu, Juanzi Li, Yun Liu, Weixing Shen, Maosong Sun
- Abstract要約: 大規模な中国のLegal eVENt検出データセットであるLEVENを,8,116件の法的文書と150,977件の人為的注釈付きイベントを108件のイベントタイプで紹介した。
LEVENは法定事象検出データセットとしては最大であり、他のデータスケールの数十倍の規模を持ち、LEDメソッドのトレーニングと評価を著しく促進する。
- 参考スコア(独自算出の注目度): 82.44096140591675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing facts is the most fundamental step in making judgments, hence
detecting events in the legal documents is important to legal case analysis
tasks. However, existing Legal Event Detection (LED) datasets only concern
incomprehensive event types and have limited annotated data, which restricts
the development of LED methods and their downstream applications. To alleviate
these issues, we present LEVEN a large-scale Chinese LEgal eVENt detection
dataset, with 8,116 legal documents and 150,977 human-annotated event mentions
in 108 event types. Not only charge-related events, LEVEN also covers general
events, which are critical for legal case understanding but neglected in
existing LED datasets. To our knowledge, LEVEN is the largest LED dataset and
has dozens of times the data scale of others, which shall significantly promote
the training and evaluation of LED methods. The results of extensive
experiments indicate that LED is challenging and needs further effort.
Moreover, we simply utilize legal events as side information to promote
downstream applications. The method achieves improvements of average 2.2 points
precision in low-resource judgment prediction, and 1.5 points mean average
precision in unsupervised case retrieval, which suggests the fundamentality of
LED. The source code and dataset can be obtained from
https://github.com/thunlp/LEVEN.
- Abstract(参考訳): 事実を認識することは、判断を行う上で最も基本的なステップであり、それゆえ、法的文書の出来事を検出することは、訴訟分析タスクにおいて重要である。
しかし、既存の法定イベント検出(LED)データセットは、包括的イベントタイプのみに関心を持ち、注釈付きデータしか持たないため、LEDメソッドとその下流アプリケーションの開発が制限される。
これらの問題を緩和するために,8,116件の法的文書と150,977件の人間が注釈付きイベントを108のイベントタイプで記述した,大規模な中国の法的イベント検出データセットをlevenに提示する。
チャージ関連のイベントだけでなく、levenは一般的なイベントもカバーする。これは訴訟理解に極めて重要であるが、既存のledデータセットでは無視されている。
我々の知る限り、LEVENは最大のLEDデータセットであり、他の数十倍のデータスケールを持ち、LEDメソッドのトレーニングと評価を著しく促進します。
広範な実験の結果、ledはチャレンジであり、さらなる努力が必要であることを示している。
さらに、法律イベントをサイド情報として単純に利用して下流アプリケーションを促進する。
本手法は、低リソース判定予測における平均2.2点精度の改善と、教師なしケース検索における平均1.5点精度の向上を実現し、LEDの基本性を示している。
ソースコードとデータセットはhttps://github.com/thunlp/LEVENから取得できる。
関連論文リスト
- Event Stream based Sign Language Translation: A High-Definition Benchmark Dataset and A New Algorithm [46.002495818680934]
本稿では,手話翻訳における高精細イベントストリームの利用を提案する。
イベントストリームは高ダイナミックレンジと高密度の時間信号を持ち、照度が低く、動きがぼやけやすい。
本稿では,CNNの特徴の時間的情報を統合するMambaモデルの能力を完全に活用する新しいベースライン手法を提案する。
論文 参考訳(メタデータ) (2024-08-20T02:01:30Z) - MAVEN-Fact: A Large-scale Event Factuality Detection Dataset [55.01875707021496]
我々は,MAVENデータセットに基づく大規模かつ高品質なEFDデータセットであるMAVEN-Factを紹介する。
MAVEN-Factには112,276のイベントのファクトリティアノテーションが含まれており、EFDデータセットとしては最大である。
MAVEN-Factは従来の微調整モデルと大規模言語モデル(LLM)の両方において困難であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-07-22T03:43:46Z) - Comparing Optical Flow and Deep Learning to Enable Computationally Efficient Traffic Event Detection with Space-Filling Curves [0.6322312717516407]
我々は,OF(Optical Flow)とDL(Deep Learning)を比較し,前方の車載カメラからの映像データに対して,空間充填曲線による計算効率の高いイベント検出を行う。
以上の結果から,OFアプローチは特異性に優れ,偽陽性を低減し,DLアプローチは優れた感度を示した。
論文 参考訳(メタデータ) (2024-07-15T13:44:52Z) - Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。
イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文 参考訳(メタデータ) (2024-03-05T01:46:50Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - GLEN: General-Purpose Event Detection for Thousands of Types [80.99866527772512]
汎用的なイベント検出データセットGLENを構築し、205Kイベントの参照を3,465種類の異なるタイプでカバーしています。
GLENはオントロジーにおいて、今日の最大のイベントデータセットよりも20倍大きい。
また,GLENの大規模化に特化して設計された多段階イベント検出モデルCEDARを提案する。
論文 参考訳(メタデータ) (2023-03-16T05:36:38Z) - ClassActionPrediction: A Challenging Benchmark for Legal Judgment
Prediction of Class Action Cases in the US [0.0]
米国におけるクラスアクションケースに焦点を当てた、挑戦的なLJPデータセットを初めてリリースしました。
これは、裁判所がしばしば使用する事実の要約ではなく、苦情を入力として含む、より難しくより現実的なタスクに焦点を当てた、共通の法体系における最初のデータセットである。
我々のLongformerモデルは、最初の2,048トークンしか考慮していないにもかかわらず、明らかに人間のベースライン(63%)を上回っている。さらに、詳細なエラー解析を行い、Longformerモデルが人間の専門家よりも格付けがかなり優れていることを発見した。
論文 参考訳(メタデータ) (2022-11-01T16:57:59Z) - MAVEN: A Massive General Domain Event Detection Dataset [56.00401399384715]
イベント検出(ED)は、プレーンテキストからイベント知識を抽出する最初の、最も基本的なステップである。
既存のデータセットは、EDのさらなる開発を制限する問題を示す。
我々は,4,480のウィキペディア文書,118,732のイベント参照インスタンス,168のイベントタイプを含むMAVEN(Massive eVENt detection dataset)を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。