論文の概要: LegalCiteBench: Evaluating Citation Reliability in Legal Language Models
- arxiv url: http://arxiv.org/abs/2605.10186v1
- Date: Mon, 11 May 2026 08:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.65286
- Title: LegalCiteBench: Evaluating Citation Reliability in Legal Language Models
- Title(参考訳): LegalCiteBench: 法的言語モデルにおけるCitation Reliabilityの評価
- Authors: Sijia Chen, Hang Yin, Shunfan Zhou,
- Abstract要約: LegalCiteBenchは、法律言語モデルにおけるクローズドブックの引用回復、引用検証、ケースマッチングを研究するためのベンチマークである。
このベンチマークは、引用検索、引用完了、引用エラー検出、ケースマッチング、ケース検証と修正の5つの引用中心タスクをカバーしている。
- 参考スコア(独自算出の注目度): 14.281332347684872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly integrated into legal drafting and research workflows, where incorrect citations or fabricated precedents can cause serious professional harm. Existing legal benchmarks largely emphasize statutory reasoning, contract understanding, or general legal question answering, but they do not directly study a central common-law failure mode: when asked to provide case authorities without external grounding, models may return plausible-looking but incorrect citations or cases. We introduce LegalCiteBench, a benchmark for studying closed-book citation recovery, citation verification, and case matching in legal language models. LegalCiteBench contains approximately 24K evaluation instances constructed from 1,000 real U.S. judicial opinions from the Case Law Access Project. The benchmark covers five citation-centric tasks: citation retrieval, citation completion, citation error detection, case matching, and case verification and correction. Across 21 LLMs, exact citation recovery remains highly challenging in this closed-book setting: even the strongest models score below 7/100 on citation retrieval and completion. Within the evaluated models, scale and legal-domain pretraining provide limited gains and do not resolve this difficulty. Models also frequently provide concrete but incorrect or low-overlap authorities under our evaluation protocol, with Misleading Answer Rates (MAR) exceeding 94% for 20 of 21 evaluated models on retrieval-heavy tasks. A prompt-only abstention experiment shows that explicit uncertainty instructions reduce some confident fabrication but do not improve citation correctness. LegalCiteBench is intended as a diagnostic framework for studying authority generation failures, verification behavior, and abstention when external grounding is absent, incomplete, or bypassed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、法的起草や研究のワークフローにますます統合されており、誤った引用や製造された前例が深刻な専門的損害を引き起こす可能性がある。
既存の法的なベンチマークは、法的な推論、契約の理解、あるいは一般的な法的質問に対する回答に重点を置いているが、それらは中央のコモン・ローの失敗モードを直接研究していない。
本稿では,法言語モデルにおけるクローズドブック引用回復,引用検証,ケースマッチングのベンチマークであるLegalCiteBenchを紹介する。
LegalCiteBenchには、ケース・ロー・アクセシビリティ・プロジェクト(Case Law Access Project)から1,000人の実際のアメリカの司法意見から作られた約24Kの評価事例が含まれている。
このベンチマークは、引用検索、引用完了、引用エラー検出、ケースマッチング、ケース検証と修正の5つの引用中心タスクをカバーしている。
21 LLM全体で、このクローズドブック設定では正確な引用回復は非常に困難であり、最も強いモデルでさえ、引用の検索と完了に関して7/100以下である。
評価されたモデルの中では、スケールと法的なドメイン事前訓練は限られた利得を提供し、この難しさを解決しない。
また, 提案手法では, 評価された21のモデルのうち, 20のモデルに対して, 誤解解答率 (MAR) が94%を超えているため, 誤解解答率 (MAR) が低いオーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーバラップ・オーダを頻繁に提供する。
プロンプトのみの禁忌実験は、明示的な不確実性命令によってある程度の確実な製造が減少するが、引用の正しさは改善しないことを示している。
LegalCiteBenchは、外部接地が不完全、不完全、またはバイパスされた場合の権限発生の失敗、検証動作、棄権を研究するための診断フレームワークとして意図されている。
関連論文リスト
- Where Experts Disagree, Models Fail: Detecting Implicit Legal Citations in French Court Decisions [3.8449738927037207]
我々は,第一審裁判所の決定において,フランス民法典の暗黙の引用に焦点をあてる。
専門家の不一致がモデル失敗を予測することを示す。
これらの制限にもかかわらず、タスクをトップkランキングとして再検討し、マルチモデルコンセンサスを活用することで、教師なしの環境でk = 200で76%の精度が得られる。
論文 参考訳(メタデータ) (2026-03-24T09:10:57Z) - CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - AR-BENCH: Benchmarking Legal Reasoning with Judgment Error Detection, Classification and Correction [30.1142279338937]
法的判断は、事件状況の複雑さと法的概念の抽象的な性質による誤りを含むことがある。
現在の法的AI研究は、判断予測や法的文書生成のようなタスクに焦点を当てている。
本稿では,モデルの診断的推論と信頼性を法的に評価することを目的とした新しいタスクAPPELLATE REVIEWを紹介する。
論文 参考訳(メタデータ) (2026-01-30T09:22:32Z) - CaseFacts: A Benchmark for Legal Fact-Checking and Precedent Retrieval [5.305110876082343]
CaseFactsは、アメリカ合衆国最高裁判所の判例に対する法的主張を検証するためのベンチマークである。
データセットは、Supported、Refuted、Overruledに分類される6,294のクレームで構成されている。
論文 参考訳(メタデータ) (2026-01-23T23:41:46Z) - Citation Failure: Definition, Analysis and Efficient Mitigation [56.09968229868067]
LLMベースのRAGシステムからの引用は、応答検証の簡略化を目的としている。
これは、モデルが有効な応答を生成するとき、引用失敗には当てはまらないが、完全な証拠を引用することができない。
応答自体に欠陥があり、完全な証拠を引用することは不可能である。
論文 参考訳(メタデータ) (2025-10-23T07:47:22Z) - Conditioning Large Language Models on Legal Systems? Detecting Punishable Hate Speech [3.4300974012019148]
本稿では, 法体系における多段階の抽象化により, 潜在的に罰せられるヘイトスピーチを検出するために, LLM(Large Language Models)の条件付けに対する異なるアプローチについて検討する。
我々は、特定のソーシャルメディア投稿が、ドイツ刑事法で規定された憎しみに対する侮辱の犯罪行為に該当するか否かを分類するタスクに焦点をあてる。
その結果、モデルが条件付けられた抽象化のレベルに関係なく、ヘイトスピーチの法的評価において、モデルと法の専門家の間には依然として大きなパフォーマンスギャップがあることが判明した。
論文 参考訳(メタデータ) (2025-06-03T15:50:27Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - CiteCaseLAW: Citation Worthiness Detection in Caselaw for Legal
Assistive Writing [44.75251805925605]
本稿では,Caselaw Access Project (CAP) の法域における引用・安心度検出のための178万文のラベル付きデータセットを紹介する。
本論文では,様々な深層学習モデルの性能について検討した。
ドメイン固有の事前学習モデルは、他のモデルよりも優れている傾向があり、88%のF1スコアが引用-可視性検出タスクである。
論文 参考訳(メタデータ) (2023-05-03T04:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。