論文の概要: LEEC: A Legal Element Extraction Dataset with an Extensive
Domain-Specific Label System
- arxiv url: http://arxiv.org/abs/2310.01271v1
- Date: Mon, 2 Oct 2023 15:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 21:09:57.388533
- Title: LEEC: A Legal Element Extraction Dataset with an Extensive
Domain-Specific Label System
- Title(参考訳): LEEC: 拡張ドメイン特化ラベルシステムによる法的要素抽出データセット
- Authors: Xue Zongyue, Liu Huanghai, Hu Yiran, Kong Kangle, Wang Chenlu, Liu Yun
and Shen Weixing
- Abstract要約: 法定要素外配列データセット (LEEC) は、中国の法体系において最も広く、かつ、ドメイン固有の法定要素抽出データセットである。
本稿では,15,831の司法文書と159のラベルからなる,より包括的で大規模な刑事要素抽出データセットを紹介する。
- 参考スコア(独自算出の注目度): 0.4764641468273235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a pivotal task in natural language processing, element extraction has
gained significance in the legal domain. Extracting legal elements from
judicial documents helps enhance interpretative and analytical capacities of
legal cases, and thereby facilitating a wide array of downstream applications
in various domains of law. Yet existing element extraction datasets are limited
by their restricted access to legal knowledge and insufficient coverage of
labels. To address this shortfall, we introduce a more comprehensive,
large-scale criminal element extraction dataset, comprising 15,831 judicial
documents and 159 labels. This dataset was constructed through two main steps:
First, designing the label system by our team of legal experts based on prior
legal research which identified critical factors driving and processes
generating sentencing outcomes in criminal cases; Second, employing the legal
knowledge to annotate judicial documents according to the label system and
annotation guideline. The Legal Element ExtraCtion dataset (LEEC) represents
the most extensive and domain-specific legal element extraction dataset for the
Chinese legal system. Leveraging the annotated data, we employed various SOTA
models that validates the applicability of LEEC for Document Event Extraction
(DEE) task. The LEEC dataset is available on https://github.com/THUlawtech/LEEC .
- Abstract(参考訳): 自然言語処理における重要な課題として、要素抽出は法的領域において重要である。
司法文書から法的要素を抽出することは、訴訟の解釈的・分析的能力を高めるのに役立ち、様々な法律分野における幅広い下流の応用を促進する。
しかし、既存の要素抽出データセットは、法的知識へのアクセス制限とラベルのカバー不足によって制限されている。
この欠点に対処するために,15,831の司法文書と159のラベルからなる,より包括的で大規模な犯罪要素抽出データセットを導入する。
このデータセットは2つの主要なステップで構築された: まず, 犯罪事例におけるセンテンスの結果を生み出す重要な要因を特定した先行研究に基づいて, 我々の法専門家チームによるラベルシステムを設計し, 第二に, ラベルシステムとアノテーションガイドラインに従って, 法的知識を用いて司法文書に注釈をつける。
法要素エクストラCtionデータセット(LEEC)は、中国の法体系において最も広範囲かつドメイン固有の法要素抽出データセットである。
注釈付きデータを活用することで、文書イベント抽出(DEE)タスクにおけるLEECの適用性を検証する様々なSOTAモデルを採用した。
LEECデータセットはhttps://github.com/THUlawtech/LEEC で公開されている。
関連論文リスト
- Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - Constructing a Knowledge Graph for Vietnamese Legal Cases with
Heterogeneous Graphs [5.168558598888541]
本稿では,法律事例文書と関連する法律に関する知識グラフ構築手法を提案する。
当社のアプローチは,データクローリング,情報抽出,知識グラフ展開という3つの主要なステップで構成されています。
論文 参考訳(メタデータ) (2023-09-16T18:31:47Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - FlairNLP at SemEval-2023 Task 6b: Extraction of Legal Named Entities
from Legal Texts using Contextual String Embeddings [0.0]
我々は、知識抽出技術、特に訴訟判決における法的実体の命名された実体抽出技術を用いている。
法文のキュレートされたデータセットに基づいて学習したモデルを用いて,シーケンスラベリングの領域におけるアートアーキテクチャのいくつかの状態を評価する。
Flair EmbeddingsでトレーニングされたBi-LSTMモデルは、最良の結果を得る。
論文 参考訳(メタデータ) (2023-06-03T19:38:04Z) - Datasets for Portuguese Legal Semantic Textual Similarity: Comparing
weak supervision and an annotation process approaches [1.9244230111838758]
ブラジルの司法評議会は、デジタル化の文書化とプロセスに関する正式なガイダンスを決議469/2022に制定した。
この記事では、法的ドメインからの4つのデータセットをコントリビュートする。2つはドキュメントとメタデータを持つが、ラベル付けされていない。
基礎的真理ラベルの分析は、ドメインの専門家にとってもドメインテキストのセマンティック分析が困難であることを強調している。
論文 参考訳(メタデータ) (2023-05-29T18:27:10Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Cross-Domain Contract Element Extraction with a Bi-directional Feedback
Clause-Element Relation Network [70.00960496773938]
クロスドメイン契約要素抽出タスクに対して双方向フィードバックcLause-Element relaTionネットワーク(Bi-FLEET)を提案する。
Bi-FLEETには、(1)コンテキストエンコーダ、(2)節-要素関係エンコーダ、(3)推論層という3つの主要なコンポーネントがある。
クロスドメインNERとCEEの両方のタスクに対する実験結果から、Bi-FLEETは最先端のベースラインを大きく上回ることが示された。
論文 参考訳(メタデータ) (2021-05-13T05:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。