論文の概要: PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice
- arxiv url: http://arxiv.org/abs/2601.16669v1
- Date: Fri, 23 Jan 2026 11:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.666004
- Title: PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice
- Title(参考訳): PLawBench: 現実の法律実務におけるLLM評価のためのルーブリックベンチマーク
- Authors: Yuzhen Shi, Huanghai Liu, Yiran Hu, Gaojie Song, Xinran Xu, Yubo Ma, Tianyi Tang, Li Zhang, Qingjing Chen, Di Feng, Wenbo Lv, Weiheng Wu, Kexin Yang, Sen Yang, Wei Wang, Rongyao Shi, Yuanyang Qiu, Yuemeng Qi, Jingwen Zhang, Xiaoyu Sui, Yifan Chen, Yi Zhang, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Weixing Shen, Bing Zhao, Charles L. A. Clarke, Hu Wei,
- Abstract要約: 本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
- 参考スコア(独自算出の注目度): 67.71760070255425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly applied to legal domain-specific tasks, evaluating their ability to perform legal work in real-world settings has become essential. However, existing legal benchmarks rely on simplified and highly standardized tasks, failing to capture the ambiguity, complexity, and reasoning demands of real legal practice. Moreover, prior evaluations often adopt coarse, single-dimensional metrics and do not explicitly assess fine-grained legal reasoning. To address these limitations, we introduce PLawBench, a Practical Law Benchmark designed to evaluate LLMs in realistic legal practice scenarios. Grounded in real-world legal workflows, PLawBench models the core processes of legal practitioners through three task categories: public legal consultation, practical case analysis, and legal document generation. These tasks assess a model's ability to identify legal issues and key facts, perform structured legal reasoning, and generate legally coherent documents. PLawBench comprises 850 questions across 13 practical legal scenarios, with each question accompanied by expert-designed evaluation rubrics, resulting in approximately 12,500 rubric items for fine-grained assessment. Using an LLM-based evaluator aligned with human expert judgments, we evaluate 10 state-of-the-art LLMs. Experimental results show that none achieves strong performance on PLawBench, revealing substantial limitations in the fine-grained legal reasoning capabilities of current LLMs and highlighting important directions for future evaluation and development of legal LLMs. Data is available at: https://github.com/skylenage/PLawbench.
- Abstract(参考訳): 大規模言語モデル(LLM)が法的なドメイン特化タスクにますます適用されるにつれて、現実の環境で法的な作業を行う能力を評価することが不可欠になっている。
しかし、既存の法的なベンチマークは単純化され、高度に標準化されたタスクに依存しており、実際の法的な実践の曖昧さ、複雑さ、推論の要求を捉えていない。
さらに、事前評価では、粗い単一の次元のメトリクスが採用されることが多く、きめ細かい法的な推論を明示的に評価しない。
これらの制約に対処するために,現実的な法的実践シナリオにおいてLLMを評価するために設計された実用法ベンチマークであるPLawBenchを紹介する。
PLawBenchは、現実世界の法的ワークフローを基盤として、法的実践者の中核的なプロセスを3つのタスクカテゴリ(公共の法的コンサルティング、実践的ケース分析、法的文書生成)を通じてモデル化している。
これらのタスクは、モデルが法的問題や重要な事実を識別し、構造化された法的推論を行い、法的に一貫性のある文書を生成する能力を評価する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブリックが伴い、およそ12,500のルーブリックアイテムがきめ細かな評価に使用される。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
実験の結果,PLawBenchの性能は向上せず,LLMの細粒度法定推論能力に限界がみられ,法定LLMの今後の評価・開発に向けた重要な方向性が明らかにされた。
データは、https://github.com/skylenage/PLawbench.comで入手できる。
関連論文リスト
- Evaluation of Large Language Models in Legal Applications: Challenges, Methods, and Future Directions [34.91946661563455]
大規模言語モデル(LLM)は、法的アプリケーションにますます統合されている。
本調査は,LLMを現実の法的実践に基づく法的課題として評価する上で重要な課題を明らかにするものである。
論文 参考訳(メタデータ) (2026-01-21T18:51:37Z) - Chinese Labor Law Large Language Model Benchmark [11.552694592413303]
我々は、中国労働法に合わせた大規模言語モデルであるWorkersLawLLMを紹介する。
また、さまざまな労働法タスクをカバーするベンチマークであるBurveLawBenchを紹介します。
実験により、WorkersLawLLMは、汎用および既存の法律固有のLLMよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-01-15T01:27:29Z) - CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis [13.067377421250557]
大規模言語モデル (LLM) は、法的テキストを分析し、関連する法令を引用するタスクが増えている。
本稿では,中国法学におけるLLMの厳密な評価と推論への応用を目的とした新しいベンチマークであるCLawを紹介する。
論文 参考訳(メタデータ) (2025-09-25T14:19:51Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - LegalBench: A Collaboratively Built Benchmark for Measuring Legal
Reasoning in Large Language Models [15.98468948605927]
LegalBenchは6種類の法的推論をカバーする162のタスクからなるベンチマークである。
本稿では、LegalBenchについて述べるとともに、20のオープンソースおよび商用LCMの実証的な評価を行い、LegalBenchがもたらす研究のタイプについて説明する。
論文 参考訳(メタデータ) (2023-08-20T22:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。