論文の概要: Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys
- arxiv url: http://arxiv.org/abs/2603.03300v1
- Date: Sat, 07 Feb 2026 06:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.125265
- Title: Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys
- Title(参考訳): ベンチマーク法RAG:AI Statutory Surveyの約束と限界
- Authors: Mohamed Afane, Emaan Hariri, Derek Ouyang, Daniel E. Ho,
- Abstract要約: 以上の結果から,STARAの精度は83%向上した。
商業プラットフォームは58%(Westlaw AI)と64%(Lexis+AI)の精度で不利であることを示す。
多くの明らかな誤りは、法律的概念の混同や法的な例外の誤解釈など、実際にDOL弁護士自身による重大な欠落である。
- 参考スコア(独自算出の注目度): 4.991125406994611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) offers significant potential for legal AI, yet systematic benchmarks are sparse. Prior work introduced LaborBench to benchmark RAG models based on ostensible ground truth from an exhaustive, multi-month, manual enumeration of all U.S. state unemployment insurance requirements by U.S. Department of Labor (DOL) attorneys. That prior work found poor performance of standard RAG (70% accuracy on Boolean tasks). Here, we assess three emerging tools not previously evaluated on LaborBench: the Statutory Research Assistant (STARA), a custom statutory research tool, and two commercial tools by Westlaw and LexisNexis marketing AI statutory survey capabilities. We make five main contributions. First, we show that STARA achieves substantial performance gains, boosting accuracy to 83%. Second, we show that commercial platforms fare poorly, with accuracy of 58% (Westlaw AI) and 64% (Lexis+ AI), even worse than standard RAG. Third, we conduct a comprehensive error analysis, comparing our outputs to those compiled by DOL attorneys, and document both reasoning errors, such as confusion between related legal concepts and misinterpretation of statutory exceptions, and retrieval failures, where relevant statutory provisions are not captured. Fourth, we discover that many apparent errors are actually significant omissions by DOL attorneys themselves, such that STARA's actual accuracy is 92%. Fifth, we chart the path forward for legal RAG through concrete design principles, offering actionable guidance for building AI systems capable of accurate multi-jurisdictional legal research.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、法的なAIに対して大きな可能性を秘めているが、体系的なベンチマークは少ない。
以前の作業では、米国労働省(DOL)の弁護士による全州の失業保険要件の、抜本的かつ多ヶ月にわたる手作業による列挙に基づくRAGモデルのベンチマークを行うために、LaborBenchを導入していた。
以前の作業では、標準的なRAG(Booleanタスクの70%の精度)のパフォーマンスが低かった。
ここでは、独自の法令調査ツールであるStatutory Research Assistant(STARA)と、WestlawとLexisNexisによる2つの商用ツールについて評価する。
主な貢献は5つある。
まず,STARAが性能向上を実現し,精度を83%に向上させることを示す。
第2に、商用プラットフォームは58%(Westlaw AI)と64%(Lexis+ AI)の精度で、標準のRAGよりもさらに劣っていることを示す。
第3に,我々のアウトプットをDOL弁護士が編纂したものと比較し,関連する法的概念の混同や法定例外の誤解釈,関連する法定規定を含まない検索障害などの推論エラーを文書化する。
第4に、多くの明らかな誤りは、実際にDOL弁護士自身による重大な欠落であり、STARAの実際の精度は92%である。
第5に、具体的な設計原則を通じて法的なRAGの道筋をグラフ化し、正確な多分野の法的研究が可能なAIシステムを構築するための実用的なガイダンスを提供します。
関連論文リスト
- Legal RAG Bench: an end-to-end benchmark for legal RAG [0.0]
本稿では,法的なRAGシステムのエンドツーエンド性能を評価するためのベンチマークおよび評価手法である Legal RAG Bench を紹介する。
RAGベンチはヴィクトリア朝の刑事告発書から4,876通、複雑で手作りの質問100通で構成されている。
論文 参考訳(メタデータ) (2026-03-02T10:34:28Z) - LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - Assessing the Reliability of Large Language Models in the Bengali Legal Context: A Comparative Evaluation Using LLM-as-Judge and Legal Experts [0.0]
OpenAI GPT-4.1 Mini、Gemini 2.0 Flash、Meta Llama 370B、DeepSeek R1などの生成AIモデルは、法的援助を民主化する可能性がある。
本研究では,Facebookグループ「Know Your Rights」から250の真正な法的質問を収集した。
我々は,AIが生成する各応答を,事実的正確性,法的適切性,完全性,明確性という4つの重要な側面で評価した。
論文 参考訳(メタデータ) (2025-11-07T02:44:00Z) - Unilaw-R1: A Large Language Model for Legal Reasoning with Reinforcement Learning and Iterative Inference [15.567885200167913]
法的な推論に適した大規模言語モデルであるUnilaw-R1を紹介する。
軽量な7ビリオンパラメータスケールにより、Unilaw-R1はデプロイメントコストを大幅に削減する。
法律分野では、不十分な法的知識、信頼できない推論論理、弱いビジネス一般化の3つの主要な課題に取り組む。
論文 参考訳(メタデータ) (2025-10-11T07:17:22Z) - AI for Statutory Simplification: A Comprehensive State Legal Corpus and Labor Benchmark [5.268588811689132]
アメリカ合衆国のある州は、AIを使って州のコードの3分の1を削除したと主張している。
この領域でAI機能を評価するためのベンチマークデータセットであるLaborBenchを紹介します。
論文 参考訳(メタデータ) (2025-08-26T18:53:39Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - A Reasoning-Focused Legal Retrieval Benchmark [28.607778538115642]
本稿では,Bar Exam QAとHousing Statute QAの2つの新しい法的RAGベンチマークを紹介する。
以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T20:44:03Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。