論文の概要: CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis
- arxiv url: http://arxiv.org/abs/2509.21208v1
- Date: Thu, 25 Sep 2025 14:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.973763
- Title: CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis
- Title(参考訳): CLaw: 大規模言語モデルにおける中国語の法律知識のベンチマーク - きめ細かいコーパスと推論分析
- Authors: Xinzhe Xu, Liang Zhao, Hongshen Xu, Chen Chen,
- Abstract要約: 大規模言語モデル (LLM) は、法的テキストを分析し、関連する法令を引用するタスクが増えている。
本稿では,中国法学におけるLLMの厳密な評価と推論への応用を目的とした新しいベンチマークであるCLawを紹介する。
- 参考スコア(独自算出の注目度): 13.067377421250557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly tasked with analyzing legal texts and citing relevant statutes, yet their reliability is often compromised by general pre-training that ingests legal texts without specialized focus, obscuring the true depth of their legal knowledge. This paper introduces CLaw, a novel benchmark specifically engineered to meticulously evaluate LLMs on Chinese legal knowledge and its application in reasoning. CLaw comprises two key components: (1) a comprehensive, fine-grained corpus of all 306 Chinese national statutes, segmented to the subparagraph level and incorporating precise historical revision timesteps for rigorous recall evaluation (64,849 entries), and (2) a challenging set of 254 case-based reasoning instances derived from China Supreme Court curated materials to assess the practical application of legal knowledge. Our empirical evaluation reveals that most contemporary LLMs significantly struggle to faithfully reproduce legal provisions. As accurate retrieval and citation of legal provisions form the basis of legal reasoning, this deficiency critically undermines the reliability of their responses. We contend that achieving trustworthy legal reasoning in LLMs requires a robust synergy of accurate knowledge retrieval--potentially enhanced through supervised fine-tuning (SFT) or retrieval-augmented generation (RAG)--and strong general reasoning capabilities. This work provides an essential benchmark and critical insights for advancing domain-specific LLM reasoning, particularly within the complex legal sphere.
- Abstract(参考訳): 大規模言語モデル(LLM)は、法的テキストを分析し、関連する法令を引用するタスクが増えているが、その信頼性は、専門的な焦点を絞らずに法的テキストを取り込み、法的知識の真の深さを無視する一般的な事前訓練によって損なわれることが多い。
本稿では,中国法学におけるLLMの厳密な評価と推論への応用を目的とした新しいベンチマークであるCLawを紹介する。
CLaw は,(1) 厳格なリコール評価(64,849項目)のための厳密な歴史的修正タイムステップを組み込んだ306の中国国定法を包括的かつきめ細かなコーパスと,(2) 中国最高裁判所の審査資料から得られた254件のケースベース推論事例の挑戦的集合からなる。
我々の経験的評価は、ほとんどの現代LSMは、法的規定を忠実に再現するのにかなり苦労していることを示している。
法律規定の正確な検索と引用が法的推論の基礎となるため、この欠陥は彼らの反応の信頼性を著しく損なう。
我々は,LLMにおける信頼性の高い法的推論を実現するためには,教師付き微調整(SFT)や検索強化世代(RAG)による,正確な知識検索の堅牢な相乗効果と,強力な一般推論能力が必要であることを主張する。
この研究は、特に複雑な法分野において、ドメイン固有のLSM推論を進めるための重要なベンチマークと重要な洞察を提供する。
関連論文リスト
- ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - Evaluating the Role of Large Language Models in Legal Practice in India [0.0]
人工知能の法的職業への統合は、重要な法的タスクを実行するための大規模言語モデルの能力に関する重要な疑問を提起する。
私は、GPT、Claude、LlamaといったLCMが、インドにおける重要な法的タスクをいかにうまく実行しているかを実証的に評価します。
LLMは特定の法的タスクを増強できるが、人間の専門知識は、ニュアンスな推論と法律の正確な適用に不可欠である、と私は結論づける。
論文 参考訳(メタデータ) (2025-08-13T11:04:48Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.344330783528015]
LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - Developing a Pragmatic Benchmark for Assessing Korean Legal Language Understanding in Large Language Models [7.797885529152412]
大規模言語モデル (LLM) は法域において顕著な性能を示した。
しかし、その効力は英語以外の言語における非標準化されたタスクやタスクに限られている。
このことは、適用前に各法体系内でのLCMの慎重な評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-11T11:41:02Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Automating IRAC Analysis in Malaysian Contract Law using a Semi-Structured Knowledge Base [22.740895683854568]
本稿では,法シナリオ分析のためのベンチマークであるLegalSemiを紹介する。
法律は、マレーシアの契約法(英語版)の包括的なIRAC(Issue, Rule, Application, Conclusion)フレームワークに基づいて、法律専門家によって厳格に注釈付けされた54の法的シナリオで構成されている。
IRAC 解析における LegalSemi の有用性を評価するために, 一連の実験を行った。
論文 参考訳(メタデータ) (2024-06-19T04:59:09Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。