論文の概要: NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus
- arxiv url: http://arxiv.org/abs/2309.04146v2
- Date: Mon, 5 Feb 2024 23:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:28:42.602579
- Title: NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus
- Title(参考訳): NESTLE: 法定コーパスの統計解析のためのノーコードツール
- Authors: Kyoungyeon Cho, Seungkum Han, Young Rok Choi, Wonseok Hwang
- Abstract要約: NESTLEは法定コーパスの大規模統計解析のためのノーコードツールである。
LLM(Large Language Model)と内部のカスタムエンド・ツー・エンドのIEシステムを利用する。
韓国のIEタスク15件とLexGLUEの法的テキスト分類タスク3件について,本システムを検証した。
- 参考スコア(独自算出の注目度): 7.70133333709347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The statistical analysis of large scale legal corpus can provide valuable
legal insights. For such analysis one needs to (1) select a subset of the
corpus using document retrieval tools, (2) structure text using information
extraction (IE) systems, and (3) visualize the data for the statistical
analysis. Each process demands either specialized tools or programming skills
whereas no comprehensive unified "no-code" tools have been available. Here we
provide NESTLE, a no-code tool for large-scale statistical analysis of legal
corpus. Powered by a Large Language Model (LLM) and the internal custom
end-to-end IE system, NESTLE can extract any type of information that has not
been predefined in the IE system opening up the possibility of unlimited
customizable statistical analysis of the corpus without writing a single line
of code. We validate our system on 15 Korean precedent IE tasks and 3 legal
text classification tasks from LexGLUE. The comprehensive experiments reveal
NESTLE can achieve GPT-4 comparable performance by training the internal IE
module with 4 human-labeled, and 192 LLM-labeled examples.
- Abstract(参考訳): 大規模法人の統計分析は、貴重な法的洞察を与えることができる。
このような分析には,(1)文書検索ツールを用いてコーパスのサブセットを選択すること,(2)情報抽出システムを用いた構造テキストを選択すること,(3)統計解析のためのデータを視覚化することが必要である。
それぞれのプロセスは特別なツールかプログラミングスキルを必要とするが、統合された"ノーコード"ツールは提供されていない。
NESTLEは法定コーパスの大規模統計解析のためのノーコードツールである。
LLM(Large Language Model)と内部のカスタムエンド・ツー・エンドのIEシステムにより、NESTLEは、一行のコードを書かずに、コーパスの無制限にカスタマイズ可能な統計分析の可能性を開放するIEシステムで事前に定義されていないあらゆる種類の情報を抽出することができる。
韓国のIEタスク15件とLexGLUEの法的テキスト分類タスク3件について,本システムを検証した。
NESTLEは、内部IEモジュールを4つの人間ラベルと192個のLLMラベルの例でトレーニングすることで、GPT-4に匹敵する性能を達成することができる。
関連論文リスト
- CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - LEEC: A Legal Element Extraction Dataset with an Extensive
Domain-Specific Label System [0.4764641468273235]
法定要素外配列データセット (LEEC) は、中国の法体系において最も広く、かつ、ドメイン固有の法定要素抽出データセットである。
本稿では,15,831の司法文書と159のラベルからなる,より包括的で大規模な刑事要素抽出データセットを紹介する。
論文 参考訳(メタデータ) (2023-10-02T15:16:31Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - A multi-language toolkit for the semi-automated checking of research outputs [0.44998333629984877]
本稿では、セキュアなデータ環境におけるプライバシー開示のための研究出力(SACRO)の半自動チェックをサポートする、フリーでオープンソースのツールキットについて述べる。
SACROは、研究者が分析を行う際に、最も実践的な原理に基づく統計開示制御(SDC)技術を適用したフレームワークである。
このツールキットは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量のPythonパッケージで構成されている。
論文 参考訳(メタデータ) (2022-12-06T12:45:15Z) - Data-efficient End-to-end Information Extraction for Statistical Legal
Analysis [13.620740882247572]
法律文書のエンドツーエンド情報抽出システムを提案する。
本システムでは,ルールベースのベースラインと比較して,有能なスコア(平均2.3点)を達成できる。
薬物運転と不正行為の2つのカテゴリーに関する統計的分析では、35万件の先例が構造化された情報を示している。
論文 参考訳(メタデータ) (2022-11-03T10:27:37Z) - RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour [4.393754160527062]
本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
論文 参考訳(メタデータ) (2022-05-05T14:43:31Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。