論文の概要: LegalLens: Leveraging LLMs for Legal Violation Identification in
Unstructured Text
- arxiv url: http://arxiv.org/abs/2402.04335v1
- Date: Tue, 6 Feb 2024 19:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:21:10.806283
- Title: LegalLens: Leveraging LLMs for Legal Violation Identification in
Unstructured Text
- Title(参考訳): legallens: 非構造化テキストにおける法的違反の識別にllmを活用する
- Authors: Dor Bernsohn, Gil Semo, Yaron Vazana, Gila Hayat, Ben Hagag, Joel
Niklaus, Rohit Saha, Kyryl Truskovskyi
- Abstract要約: まず、構造化されていないテキストデータ内の法的違反を検知し、次に、潜在的に影響を受ける個人とこれらの違反を関連付けることに焦点を当てる。
我々は,Large Language Models (LLMs) を用いて2つのデータセットを構築し,ドメインエキスパートアノテータによる検証を行った。
結果、F1スコアは62.69%(違反識別)と81.02%(81.02%)で、データセットとセットアップが両方のタスクに使用できることを示した。
- 参考スコア(独自算出の注目度): 2.5218432691157866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we focus on two main tasks, the first for detecting legal
violations within unstructured textual data, and the second for associating
these violations with potentially affected individuals. We constructed two
datasets using Large Language Models (LLMs) which were subsequently validated
by domain expert annotators. Both tasks were designed specifically for the
context of class-action cases. The experimental design incorporated fine-tuning
models from the BERT family and open-source LLMs, and conducting few-shot
experiments using closed-source LLMs. Our results, with an F1-score of 62.69\%
(violation identification) and 81.02\% (associating victims), show that our
datasets and setups can be used for both tasks. Finally, we publicly release
the datasets and the code used for the experiments in order to advance further
research in the area of legal natural language processing (NLP).
- Abstract(参考訳): 本研究では,非構造化テキストデータ中の法的な違反を検出するための1つと,潜在的に影響を受ける可能性のある個人とを関連付ける2つの主な課題に焦点を当てた。
我々はLarge Language Models (LLM) を用いて2つのデータセットを構築した。
どちらのタスクもクラスアクションケースのコンテキスト用に特別に設計されました。
実験設計では、bertファミリーとオープンソースllmの微調整モデルが組み込まれ、クローズドソースllmを使った少数実験が行われた。
結果、F1スコア62.69\%(違反識別)と81.02\%(81.02\%)は、データセットと設定が両方のタスクに使用できることを示している。
最後に,NLP(法定自然言語処理)分野のさらなる研究を進めるために,実験に使用されるデータセットとコードを公開する。
関連論文リスト
- Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - CopyLens: Dynamically Flagging Copyrighted Sub-Dataset Contributions to LLM Outputs [39.425944445393945]
CopyLensは,著作権付きデータセットが大規模言語モデルの応答に与える影響を分析するフレームワークである。
実験の結果、CopyLensは提案したベースラインよりも効率と精度を15.2%向上し、エンジニアリング手法より58.7%、OOD検出ベースラインより0.21AUC向上した。
論文 参考訳(メタデータ) (2024-10-06T11:41:39Z) - Leveraging Open-Source Large Language Models for Native Language Identification [1.6267479602370543]
ネイティブ言語識別(NLI)は、法医学、マーケティング、第二言語習得に応用されている。
本研究では,オープンソース生成型大規模言語モデル(LLM)をNLIに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-15T08:14:18Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - LLM4Causal: Democratized Causal Tools for Everyone via Large Language Model [7.052058110182703]
大きな言語モデル(LLM)は、言語理解と一般的なトピックの推論で成功していることを示している。
LLMをLLM4Causalに微調整することで、因果タスクを識別し、対応する関数を実行し、ユーザのクエリと提供されたデータセットに基づいてその数値結果を解釈できる可能性を探る。
論文 参考訳(メタデータ) (2023-12-28T16:59:06Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。