論文の概要: NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus
- arxiv url: http://arxiv.org/abs/2309.04146v1
- Date: Fri, 8 Sep 2023 06:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 15:55:00.306230
- Title: NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus
- Title(参考訳): NESTLE: 法定コーパスの統計解析のためのノーコードツール
- Authors: Kyoungyeon Cho, Seungkum Han, Wonseok Hwang
- Abstract要約: NESTLEは法定コーパスの大規模統計解析のためのコードツールではない。
検索エンジン、エンドツーエンドのIEシステム、大規模言語モデルという3つの主要コンポーネントで構成されている。
LEXGLUEによる15の韓国のIEタスクと3つの法的テキスト分類タスクに対して,本システムの有効性を検証した。
- 参考スコア(独自算出の注目度): 6.8139254183514355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The statistical analysis of large scale legal corpus can provide valuable
legal insights. For such analysis one needs to (1) select a subset of the
corpus using document retrieval tools, (2) structuralize text using information
extraction (IE) systems, and (3) visualize the data for the statistical
analysis. Each process demands either specialized tools or programming skills
whereas no comprehensive unified "no-code" tools have been available.
Especially for IE, if the target information is not predefined in the ontology
of the IE system, one needs to build their own system. Here we provide NESTLE,
a no code tool for large-scale statistical analysis of legal corpus. With
NESTLE, users can search target documents, extract information, and visualize
the structured data all via the chat interface with accompanying auxiliary GUI
for the fine-level control. NESTLE consists of three main components: a search
engine, an end-to-end IE system, and a Large Language Model (LLM) that glues
the whole components together and provides the chat interface. Powered by LLM
and the end-to-end IE system, NESTLE can extract any type of information that
has not been predefined in the IE system opening up the possibility of
unlimited customizable statistical analysis of the corpus without writing a
single line of code. The use of the custom end-to-end IE system also enables
faster and low-cost IE on large scale corpus. We validate our system on 15
Korean precedent IE tasks and 3 legal text classification tasks from LEXGLUE.
The comprehensive experiments reveal NESTLE can achieve GPT-4 comparable
performance by training the internal IE module with 4 human-labeled, and 192
LLM-labeled examples. The detailed analysis provides the insight on the
trade-off between accuracy, time, and cost in building such system.
- Abstract(参考訳): 大規模法人の統計分析は、貴重な法的洞察を与えることができる。
このような分析には、(1)文書検索ツールを用いてコーパスのサブセットを選択し、(2)情報抽出(ie)システムを用いてテキストを構造化し、(3)統計解析のためにデータを視覚化する必要がある。
それぞれのプロセスは特別なツールかプログラミングスキルを必要とするが、統合された"ノーコード"ツールは提供されていない。
特にIEでは、ターゲット情報がIEシステムのオントロジーで事前に定義されていない場合、独自のシステムを構築する必要がある。
ここでは、法定コーパスの大規模統計解析のためのノーコードツールであるNESTLEを提供する。
NESTLEでは、ユーザはターゲットのドキュメントを検索し、情報を抽出し、チャットインターフェースを通じて構造化されたデータを可視化することができる。
NESTLEは3つの主要なコンポーネントで構成されている: 検索エンジン、エンドツーエンドのIEシステム、および全コンポーネントを結合してチャットインターフェースを提供するLarge Language Model (LLM)である。
LLMとエンドツーエンドのIEシステムによって、NESTLEは、IEシステムで事前に定義されていないあらゆる種類の情報を抽出することができ、単一のコード行を書かずに、コーパスの無制限にカスタマイズ可能な統計分析が可能となる。
カスタムエンド・ツー・エンドのIEシステムを使用することで、大規模コーパスでの高速で低コストなIEを実現することができる。
LEXGLUEによる15の韓国のIEタスクと3つの法的テキスト分類タスクを検証した。
NESTLEは、内部IEモジュールを4つの人間ラベルと192個のLLMラベルの例でトレーニングすることで、GPT-4に匹敵する性能を達成することができる。
詳細な分析は、システムの構築における正確性、時間、コストのトレードオフに関する洞察を提供する。
関連論文リスト
- CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - LEEC: A Legal Element Extraction Dataset with an Extensive
Domain-Specific Label System [0.4764641468273235]
法定要素外配列データセット (LEEC) は、中国の法体系において最も広く、かつ、ドメイン固有の法定要素抽出データセットである。
本稿では,15,831の司法文書と159のラベルからなる,より包括的で大規模な刑事要素抽出データセットを紹介する。
論文 参考訳(メタデータ) (2023-10-02T15:16:31Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - A multi-language toolkit for the semi-automated checking of research outputs [0.44998333629984877]
本稿では、セキュアなデータ環境におけるプライバシー開示のための研究出力(SACRO)の半自動チェックをサポートする、フリーでオープンソースのツールキットについて述べる。
SACROは、研究者が分析を行う際に、最も実践的な原理に基づく統計開示制御(SDC)技術を適用したフレームワークである。
このツールキットは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量のPythonパッケージで構成されている。
論文 参考訳(メタデータ) (2022-12-06T12:45:15Z) - Data-efficient End-to-end Information Extraction for Statistical Legal
Analysis [13.620740882247572]
法律文書のエンドツーエンド情報抽出システムを提案する。
本システムでは,ルールベースのベースラインと比較して,有能なスコア(平均2.3点)を達成できる。
薬物運転と不正行為の2つのカテゴリーに関する統計的分析では、35万件の先例が構造化された情報を示している。
論文 参考訳(メタデータ) (2022-11-03T10:27:37Z) - RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour [4.393754160527062]
本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
論文 参考訳(メタデータ) (2022-05-05T14:43:31Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。