Fugu-MT 論文翻訳(概要): LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text

論文の概要: LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text

arxiv url: http://arxiv.org/abs/2402.04335v1
Date: Tue, 6 Feb 2024 19:18:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 18:21:10.806283
Title: LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text
Title（参考訳）: legallens: 非構造化テキストにおける法的違反の識別にllmを活用する
Authors: Dor Bernsohn, Gil Semo, Yaron Vazana, Gila Hayat, Ben Hagag, Joel Niklaus, Rohit Saha, Kyryl Truskovskyi
Abstract要約: まず、構造化されていないテキストデータ内の法的違反を検知し、次に、潜在的に影響を受ける個人とこれらの違反を関連付けることに焦点を当てる。我々は,Large Language Models (LLMs) を用いて2つのデータセットを構築し,ドメインエキスパートアノテータによる検証を行った。結果、F1スコアは62.69%(違反識別)と81.02%(81.02%)で、データセットとセットアップが両方のタスクに使用できることを示した。
参考スコア（独自算出の注目度）: 2.5218432691157866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we focus on two main tasks, the first for detecting legal violations within unstructured textual data, and the second for associating these violations with potentially affected individuals. We constructed two datasets using Large Language Models (LLMs) which were subsequently validated by domain expert annotators. Both tasks were designed specifically for the context of class-action cases. The experimental design incorporated fine-tuning models from the BERT family and open-source LLMs, and conducting few-shot experiments using closed-source LLMs. Our results, with an F1-score of 62.69\% (violation identification) and 81.02\% (associating victims), show that our datasets and setups can be used for both tasks. Finally, we publicly release the datasets and the code used for the experiments in order to advance further research in the area of legal natural language processing (NLP).
Abstract（参考訳）: 本研究では,非構造化テキストデータ中の法的な違反を検出するための1つと,潜在的に影響を受ける可能性のある個人とを関連付ける2つの主な課題に焦点を当てた。我々はLarge Language Models (LLM) を用いて2つのデータセットを構築した。どちらのタスクもクラスアクションケースのコンテキスト用に特別に設計されました。実験設計では、bertファミリーとオープンソースllmの微調整モデルが組み込まれ、クローズドソースllmを使った少数実験が行われた。結果、F1スコア62.69\%(違反識別)と81.02\%(81.02\%)は、データセットと設定が両方のタスクに使用できることを示している。最後に,NLP(法定自然言語処理)分野のさらなる研究を進めるために,実験に使用されるデータセットとコードを公開する。

関連論文リスト

Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Biases in Large Language Model-Elicited Text: A Case Study in Natural Language Inference [3.0804372027733202]
我々は,Large Language Models (LLM) で作成したNLPデータセットが,アノテーションや社会的バイアスを含むかどうかを検証した。 GPT-4, Llama-2 70b for Chat, Mistral 7b Instruct を用いて, スタンフォード大学の自然言語推論コーパスの一部を再現した。
論文参考訳（メタデータ） (2025-03-06T23:49:30Z)
Attribution analysis of legal language as used by LLM [0.0]
公開可能な2つの法的データセット、より単純な二項分類タスク、および保持者の司法判断を特定するためのより精巧な複数の選択タスクを使用します。すべてのモデルがケースホールドタスクからテスト例を正しく分類しているのに対して、他の例は1つ、モデル、属性のみによってのみ識別できる。
論文参考訳（メタデータ） (2025-01-28T22:48:29Z)
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文参考訳（メタデータ） (2025-01-22T12:06:16Z)
Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文参考訳（メタデータ） (2024-10-09T06:26:39Z)
CopyLens: Dynamically Flagging Copyrighted Sub-Dataset Contributions to LLM Outputs [39.425944445393945]
CopyLensは,著作権付きデータセットが大規模言語モデルの応答に与える影響を分析するフレームワークである。実験の結果、CopyLensは提案したベースラインよりも効率と精度を15.2%向上し、エンジニアリング手法より58.7%、OOD検出ベースラインより0.21AUC向上した。
論文参考訳（メタデータ） (2024-10-06T11:41:39Z)
Leveraging Open-Source Large Language Models for Native Language Identification [1.6267479602370543]
ネイティブ言語識別(NLI)は、法医学、マーケティング、第二言語習得に応用されている。本研究では,オープンソース生成型大規模言語モデル(LLM)をNLIに適用する可能性について検討する。
論文参考訳（メタデータ） (2024-09-15T08:14:18Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文参考訳（メタデータ） (2024-01-18T18:15:46Z)
On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文参考訳（メタデータ） (2024-01-15T19:46:40Z)
LLM4Causal: Democratized Causal Tools for Everyone via Large Language Model [7.052058110182703]
大きな言語モデル(LLM)は、言語理解と一般的なトピックの推論で成功していることを示している。 LLMをLLM4Causalに微調整することで、因果タスクを識別し、対応する関数を実行し、ユーザのクエリと提供されたデータセットに基づいてその数値結果を解釈できる可能性を探る。
論文参考訳（メタデータ） (2023-12-28T16:59:06Z)
Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-11-03T14:39:20Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。