論文の概要: Improving the Accuracy and Efficiency of Legal Document Tagging with Large Language Models and Instruction Prompts
- arxiv url: http://arxiv.org/abs/2504.09309v1
- Date: Sat, 12 Apr 2025 18:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:07.374614
- Title: Improving the Accuracy and Efficiency of Legal Document Tagging with Large Language Models and Instruction Prompts
- Title(参考訳): 大規模言語モデルと命令プロンプトによる法的文書タグの精度と効率の向上
- Authors: Emily Johnson, Xavier Holt, Noah Wilson,
- Abstract要約: Legal-LLMはLarge Language Models (LLM) の命令追従機能を利用する新しいアプローチである。
提案手法は,マイクロF1とマクロF1スコアを用いて,POSTURE50KとEURLEX57Kの2つのベンチマークデータセット上で評価する。
- 参考スコア(独自算出の注目度): 0.6554326244334866
- License:
- Abstract: Legal multi-label classification is a critical task for organizing and accessing the vast amount of legal documentation. Despite its importance, it faces challenges such as the complexity of legal language, intricate label dependencies, and significant label imbalance. In this paper, we propose Legal-LLM, a novel approach that leverages the instruction-following capabilities of Large Language Models (LLMs) through fine-tuning. We reframe the multi-label classification task as a structured generation problem, instructing the LLM to directly output the relevant legal categories for a given document. We evaluate our method on two benchmark datasets, POSTURE50K and EURLEX57K, using micro-F1 and macro-F1 scores. Our experimental results demonstrate that Legal-LLM outperforms a range of strong baseline models, including traditional methods and other Transformer-based approaches. Furthermore, ablation studies and human evaluations validate the effectiveness of our approach, particularly in handling label imbalance and generating relevant and accurate legal labels.
- Abstract(参考訳): 法的な多ラベル分類は、膨大な量の法的文書を整理し、アクセスするための重要なタスクである。
その重要性にもかかわらず、法律言語の複雑さ、複雑なラベル依存、重要なラベルの不均衡といった課題に直面している。
本稿では,Large Language Models (LLM) の命令追従機能を活用する手法である Legal-LLM を提案する。
我々は,マルチラベル分類タスクを構造化された生成問題として再編成し,LLMに与えられた文書に対して関連する法的カテゴリを直接出力するように指示する。
提案手法は,マイクロF1とマクロF1スコアを用いて,POSTURE50KとEURLEX57Kの2つのベンチマークデータセット上で評価する。
実験の結果,従来の手法やトランスフォーマーベースのアプローチなど,強力なベースラインモデルよりも優れた性能を示した。
さらに,アブラレーション研究と人的評価は,本手法の有効性を検証し,特にラベルの不均衡処理や関連性および正確な法的ラベルの生成において有効であることを示した。
関連論文リスト
- Named entity recognition for Serbian legal documents: Design, methodology and dataset development [0.0]
セルビア語で書かれた法的文書の場合には,名前付きエンティティ認識(NER)の一解法を提案する。
これは、テキストコンテンツから特定のデータポイントを識別し分類する特定のタスクに慎重に適応していた変換器(BERT)からの事前訓練された双方向エンコーダ表現を活用している。
論文 参考訳(メタデータ) (2025-02-14T22:23:39Z) - LegalSeg: Unlocking the Structure of Indian Legal Judgments Through Rhetorical Role Classification [6.549338652948716]
7000以上の文書と140万の文で構成され、7つの修辞的な役割をラベル付けした、このタスクのための最大の注釈付きデータセットであるLegalSegを紹介します。
以上の結果から,より広義の文脈,構造的関係,逐次的な文情報を含むモデルが,文レベルの特徴にのみ依存するモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-09T10:07:05Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - The Right Model for the Job: An Evaluation of Legal Multi-Label
Classification Baselines [4.5054837824245215]
マルチラベル分類(MLC、Multi-Label Classification)は、複数のラベルを法的文書に割り当てることのできる、法的領域における一般的なタスクである。
本研究では,2つの法的データセットを用いて異なるLCC手法の評価を行う。
論文 参考訳(メタデータ) (2024-01-22T11:15:07Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。