論文の概要: LegalLens: Leveraging LLMs for Legal Violation Identification in
Unstructured Text
- arxiv url: http://arxiv.org/abs/2402.04335v1
- Date: Tue, 6 Feb 2024 19:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:21:10.806283
- Title: LegalLens: Leveraging LLMs for Legal Violation Identification in
Unstructured Text
- Title(参考訳): legallens: 非構造化テキストにおける法的違反の識別にllmを活用する
- Authors: Dor Bernsohn, Gil Semo, Yaron Vazana, Gila Hayat, Ben Hagag, Joel
Niklaus, Rohit Saha, Kyryl Truskovskyi
- Abstract要約: まず、構造化されていないテキストデータ内の法的違反を検知し、次に、潜在的に影響を受ける個人とこれらの違反を関連付けることに焦点を当てる。
我々は,Large Language Models (LLMs) を用いて2つのデータセットを構築し,ドメインエキスパートアノテータによる検証を行った。
結果、F1スコアは62.69%(違反識別)と81.02%(81.02%)で、データセットとセットアップが両方のタスクに使用できることを示した。
- 参考スコア(独自算出の注目度): 2.5218432691157866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we focus on two main tasks, the first for detecting legal
violations within unstructured textual data, and the second for associating
these violations with potentially affected individuals. We constructed two
datasets using Large Language Models (LLMs) which were subsequently validated
by domain expert annotators. Both tasks were designed specifically for the
context of class-action cases. The experimental design incorporated fine-tuning
models from the BERT family and open-source LLMs, and conducting few-shot
experiments using closed-source LLMs. Our results, with an F1-score of 62.69\%
(violation identification) and 81.02\% (associating victims), show that our
datasets and setups can be used for both tasks. Finally, we publicly release
the datasets and the code used for the experiments in order to advance further
research in the area of legal natural language processing (NLP).
- Abstract(参考訳): 本研究では,非構造化テキストデータ中の法的な違反を検出するための1つと,潜在的に影響を受ける可能性のある個人とを関連付ける2つの主な課題に焦点を当てた。
我々はLarge Language Models (LLM) を用いて2つのデータセットを構築した。
どちらのタスクもクラスアクションケースのコンテキスト用に特別に設計されました。
実験設計では、bertファミリーとオープンソースllmの微調整モデルが組み込まれ、クローズドソースllmを使った少数実験が行われた。
結果、F1スコア62.69\%(違反識別)と81.02\%(81.02\%)は、データセットと設定が両方のタスクに使用できることを示している。
最後に,NLP(法定自然言語処理)分野のさらなる研究を進めるために,実験に使用されるデータセットとコードを公開する。
関連論文リスト
- Can we obtain significant success in RST discourse parsing by using
Large Language Models? [32.94244684710954]
デコーダのみの大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクに大きな影響を与えている。
本稿では,LLMがRST(Rhetorical Structure Theory)の言論解析にいかに有用かを検討する。
RST-DT, Instr-DT, GUMコーパスの3つのベンチマークデータセットによる実験結果から, ボトムアップ戦略に700億のパラメータを持つLlama 2が, 有意な差を示した。
論文 参考訳(メタデータ) (2024-03-08T05:34:29Z) - Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on
Data-to-Text Generation [2.9206268153110084]
データ・トゥ・テキスト・ジェネレーション(D2T)におけるオープン・大規模言語モデル(LLM)の振る舞いを解析する。
近年のオープン LLM は,標準データフォーマットからゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
オープンLLMの出力の80%以上は意味的誤りを含む。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - WASA: WAtermark-based Source Attribution for Large Language
Model-Generated Data [60.759755177369364]
大言語モデル(LLM)は、ソースに関する情報を含む埋め込み透かしを持つ合成テキストを生成する。
本稿では,我々のアルゴリズム設計により鍵特性を満たすWAtermarking for Source Attribution (WASA)フレームワークを提案する。
我々のフレームワークは、効果的な情報源の属性とデータの出所を達成します。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。