論文の概要: LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs
- arxiv url: http://arxiv.org/abs/2603.08286v1
- Date: Mon, 09 Mar 2026 12:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.897664
- Title: LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs
- Title(参考訳): LAMUS: LLMを用いた米国における訴訟訴訟マイニングのための大規模コーパス
- Authors: Serene Wang, Lavanya Pobbathi, Haihua Chen,
- Abstract要約: 本稿は、アメリカ合衆国最高裁判所の決定とテキサス州の刑事法定の意見から構築された、刑期レベルの法的議論採掘コーパスであるLAMUSを紹介する。
データセットは、大規模なケースコレクション、自動アノテーション、ターゲットとする人間のループ品質改善を組み合わせた、データ中心のパイプラインを使用して作成される。
- 参考スコア(独自算出の注目度): 0.5830619388189558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal argument mining aims to identify and classify the functional components of judicial reasoning, such as facts, issues, rules, analysis, and conclusions. Progress in this area is limited by the lack of large-scale, high-quality annotated datasets for U.S. caselaw, particularly at the state level. This paper introduces LAMUS, a sentence-level legal argument mining corpus constructed from U.S. Supreme Court decisions and Texas criminal appellate opinions. The dataset is created using a data-centric pipeline that combines large-scale case collection, LLM-based automatic annotation, and targeted human-in-the-loop quality refinement. We formulate legal argument mining as a six-class sentence classification task and evaluate multiple general-purpose and legal-domain language models under zero-shot, few-shot, and chain-of-thought prompting strategies, with LegalBERT as a supervised baseline. Results show that chain-of-thought prompting substantially improves LLM performance, while domain-specific models exhibit more stable zero-shot behavior. LLM-assisted verification corrects nearly 20% of annotation errors, improving label consistency. Human verification achieves Cohen's Kappa of 0.85, confirming annotation quality. LAMUS provides a scalable resource and empirical insights for future legal NLP research. All code and datasets can be accessed for reproducibility on GitHub at: https://github.com/LavanyaPobbathi/LAMUS/tree/main
- Abstract(参考訳): 法的議論マイニングは、事実、問題、ルール、分析、結論など、司法推論の機能的構成要素を特定し、分類することを目的としている。
この領域の進歩は、特に州レベルで、合衆国のケースローのための大規模で高品質な注釈付きデータセットが欠如していることによって制限されている。
本稿は、アメリカ合衆国最高裁判所の決定とテキサス州の刑事法定の意見から構築された、刑期レベルの法的議論採掘コーパスであるLAMUSを紹介する。
データセットは、大規模ケースコレクション、LLMベースの自動アノテーション、ループ内の人間品質改善をターゲットにしたデータ中心パイプラインを使用して作成される。
法的な議論マイニングを6階層の文分類タスクとして定式化し、ゼロショット, 少数ショット, チェーン・オブ・シークレットによる複数の汎用ドメイン言語モデルの評価を行い、LegalBERTを教師付きベースラインとした。
その結果,チェーン・オブ・シークレットがLLM性能を大幅に向上する一方,ドメイン固有モデルはより安定したゼロショット動作を示すことがわかった。
LLM支援による検証では、アノテーションエラーの20%近くが修正され、ラベルの一貫性が向上した。
人間の検証はCohenのKappaの0.85を達成し、アノテーションの品質を確認している。
LAMUSは、将来の法的NLP研究にスケーラブルなリソースと経験的な洞察を提供する。
https://github.com/LavanyaPobbathi/LAMUS/tree/main
関連論文リスト
- Place Matters: Comparing LLM Hallucination Rates for Place-Based Legal Queries [8.865671688076574]
本研究は, クローズドソースLPMによる法情報の幻覚の頻度が, 場所と大きく関連していることを示す。
このことは、これらのモデルによって提供される法的な解の質が地理的に均等に分散していないことを示唆している。
論文 参考訳(メタデータ) (2025-11-10T04:42:00Z) - Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities [15.35489310097019]
CLAUSE は LLM の法的な推論の脆弱性を評価するために設計された第一種ベンチマークである。
我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
論文 参考訳(メタデータ) (2025-11-01T00:51:21Z) - Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文 参考訳(メタデータ) (2025-10-28T16:55:22Z) - LLMPR: A Novel LLM-Driven Transfer Learning based Petition Ranking Model [0.0699049312989311]
本稿では,その文脈的緊急性に基づいて,優先格付けを法的請願に割り当てる自動フレームワークを提案する。
実験の結果,ランダムフォレストモデルと決定木モデルの方が優れた性能を示した。
これらの結果から, 自動請願ランキングは, 司法を効果的に合理化し, 訴訟バックログを減らし, 法的優先順位付けの公平性を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-05-27T19:25:24Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - CaseSumm: A Large-Scale Dataset for Long-Context Summarization from U.S. Supreme Court Opinions [25.82451110740322]
本稿では,法律領域における長文要約のための新しいデータセットであるCaseSummを紹介する。
我々は、米国最高裁判所(SCOTUS)の意見25.6万件と、その公式要約「syllabuses」を収集する。
我々のデータセットは、オープンな訴訟要約データセットとしては最大であり、1815年にさかのぼるSCOTUS決定の要約を含む最初のものである。
論文 参考訳(メタデータ) (2024-12-30T19:00:01Z) - Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - LLM-Generated Natural Language Meets Scaling Laws: New Explorations and Data Augmentation Methods [3.333401582174629]
大規模言語モデル(LLMNL)とヒト自然言語(HNL)を本質的に計算するスケーリング法則を導入する。
実験により,LLMNLにおけるマンデルブロットの法則からわずかに逸脱し,HNLにおける複雑性の優位性を浮き彫りにし,言語スタイルに関する解釈的議論を補足する。
そこで本研究では,ZGPTDAと呼ばれる,スケーリング法則に適合したファジィ計算機構を活用する,少数ショットテキスト分類のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T05:40:17Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。