論文の概要: Data-efficient End-to-end Information Extraction for Statistical Legal
Analysis
- arxiv url: http://arxiv.org/abs/2211.01692v1
- Date: Thu, 3 Nov 2022 10:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:18:31.502588
- Title: Data-efficient End-to-end Information Extraction for Statistical Legal
Analysis
- Title(参考訳): 統計的法的分析のためのデータ効率のよいエンドツーエンド情報抽出
- Authors: Wonseok Hwang, Saehee Eom, Hanuhl Lee, Hai Jin Park, Minjoon Seo
- Abstract要約: 法律文書のエンドツーエンド情報抽出システムを提案する。
本システムでは,ルールベースのベースラインと比較して,有能なスコア(平均2.3点)を達成できる。
薬物運転と不正行為の2つのカテゴリーに関する統計的分析では、35万件の先例が構造化された情報を示している。
- 参考スコア(独自算出の注目度): 13.620740882247572
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Legal practitioners often face a vast amount of documents. Lawyers, for
instance, search for appropriate precedents favorable to their clients, while
the number of legal precedents is ever-growing. Although legal search engines
can assist finding individual target documents and narrowing down the number of
candidates, retrieved information is often presented as unstructured text and
users have to examine each document thoroughly which could lead to information
overloading. This also makes their statistical analysis challenging. Here, we
present an end-to-end information extraction (IE) system for legal documents.
By formulating IE as a generation task, our system can be easily applied to
various tasks without domain-specific engineering effort. The experimental
results of four IE tasks on Korean precedents shows that our IE system can
achieve competent scores (-2.3 on average) compared to the rule-based baseline
with as few as 50 training examples per task and higher score (+5.4 on average)
with 200 examples. Finally, our statistical analysis on two case
categories--drunk driving and fraud--with 35k precedents reveals the resulting
structured information from our IE system faithfully reflects the macroscopic
features of Korean legal system.
- Abstract(参考訳): 法律実務家はしばしば大量の文書に直面する。
例えば弁護士は、クライアントに有利な適切な前例を探し、法律上の前例の数は増え続けている。
法律検索エンジンは、個々の対象文書の発見と候補数の絞り込みを支援することができるが、検索された情報は構造化されていないテキストとしてしばしば提示され、ユーザーは情報過負荷につながる可能性のある各文書を徹底的に調べなければならない。
また、統計分析も困難である。
本稿では,法律文書のエンドツーエンド情報抽出(IE)システムを提案する。
生成タスクとしてIEを定式化することにより、ドメイン固有のエンジニアリング作業をせずに、様々なタスクに容易に適用できる。
韓国の先例による4つのIEタスクの実験結果から、我々のIEシステムは、ルールベースのベースラインに比べて、50のトレーニング例と、200のサンプルによるより高いスコア(平均5.4)で有能なスコア(平均2.3)を達成できることが示された。
最後に,我々のieシステムから得られた構造化情報から,韓国法制度のマクロな特徴を忠実に反映する,drunk driving と fraud の2つの事例を統計的に分析した。
関連論文リスト
- CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - LEEC: A Legal Element Extraction Dataset with an Extensive
Domain-Specific Label System [0.4764641468273235]
法定要素外配列データセット (LEEC) は、中国の法体系において最も広く、かつ、ドメイン固有の法定要素抽出データセットである。
本稿では,15,831の司法文書と159のラベルからなる,より包括的で大規模な刑事要素抽出データセットを紹介する。
論文 参考訳(メタデータ) (2023-10-02T15:16:31Z) - NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus [7.70133333709347]
NESTLEは法定コーパスの大規模統計解析のためのノーコードツールである。
LLM(Large Language Model)と内部のカスタムエンド・ツー・エンドのIEシステムを利用する。
韓国のIEタスク15件とLexGLUEの法的テキスト分類タスク3件について,本システムを検証した。
論文 参考訳(メタデータ) (2023-09-08T06:23:25Z) - An Intent Taxonomy of Legal Case Retrieval [43.22489520922202]
訴訟検索は、訴訟文書に焦点をあてた特別情報検索(IR)タスクである。
判例検索の新しい階層的意図分類法を提案する。
判例検索において,検索意図の違いによるユーザの行動と満足度に有意な差が認められた。
論文 参考訳(メタデータ) (2023-07-25T07:27:32Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - Automated Refugee Case Analysis: An NLP Pipeline for Supporting Legal
Practitioners [0.0]
本稿では,訴訟から対象情報を検索,処理,抽出するためのエンドツーエンドパイプラインを提案する。
カナダにおける難民法を事例として,未研究の法域を調査した。
論文 参考訳(メタデータ) (2023-05-24T19:37:23Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。