論文の概要: Where Experts Disagree, Models Fail: Detecting Implicit Legal Citations in French Court Decisions
- arxiv url: http://arxiv.org/abs/2603.22973v1
- Date: Tue, 24 Mar 2026 09:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.397091
- Title: Where Experts Disagree, Models Fail: Detecting Implicit Legal Citations in French Court Decisions
- Title(参考訳): 専門家が否定するところ、モデルは失敗:フランスの裁判所判決で不適切な法的扇動を検出
- Authors: Avrile Floro, Tamara Dhorasoo, Soline Pellez, Nils Holzenberger,
- Abstract要約: 我々は,第一審裁判所の決定において,フランス民法典の暗黙の引用に焦点をあてる。
専門家の不一致がモデル失敗を予測することを示す。
これらの制限にもかかわらず、タスクをトップkランキングとして再検討し、マルチモデルコンセンサスを活用することで、教師なしの環境でk = 200で76%の精度が得られる。
- 参考スコア(独自算出の注目度): 3.8449738927037207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational methods applied to legal scholarship hold the promise of analyzing law at scale. We start from a simple question: how often do courts implicitly apply statutory rules? This requires distinguishing legal reasoning from semantic similarity. We focus on implicit citation of the French Civil Code in first-instance court decisions and introduce a benchmark of 1,015 passage-article pairs annotated by three legal experts. We show that expert disagreement predicts model failures. Inter-annotator agreement is moderate ($κ$ = 0.33) with 43% of disagreements involving the boundary between factual description and legal reasoning. Our supervised ensemble achieves F1 = 0.70 (77% accuracy), but this figure conceals an asymmetry: 68% of false positives fall on the 33% of cases where the annotators disagreed. Despite these limits, reframing the task as top-k ranking and leveraging multi-model consensus yields 76% precision at k = 200 in an unsupervised setting. Moreover, the remaining false positives tend to surface legally ambiguous applications rather than obvious errors.
- Abstract(参考訳): 法学に適用される計算手法は、大規模に法律を分析するという約束を果たす。
裁判所が法律規則を暗黙的に適用する頻度はどれくらいかという単純な質問から始まります。
これは意味的類似性から法的推論を区別する必要がある。
第一審裁判所の決定において、フランス民法典の暗黙の引用に焦点を合わせ、3人の法律専門家が注釈を付けた1015件の条文対のベンチマークを導入する。
専門家の不一致がモデル失敗を予測することを示す。
アノテーション間の合意は適度(κ$ = 0.33)であり、事実記述と法的推論の境界に関する43%の意見の相違がある。
我々の監督されたアンサンブルは F1 = 0.70 (77% の精度) を達成するが、この図は非対称性を隠蔽している。
これらの制限にもかかわらず、タスクをトップkランキングとして再検討し、マルチモデルコンセンサスを活用することで、教師なしの環境でk = 200で76%の精度が得られる。
さらに、残りの偽陽性は、明らかな誤りではなく、法的にあいまいな応用を呈する傾向がある。
関連論文リスト
- Mining Legal Arguments to Study Judicial Formalism [7.685444048563301]
この研究は、司法推論を自動で検出・分類する手法を開発することで、中欧・東欧における形式的判断(CEE)について論じている。
我々はチェコの2つの最高裁判所から、9,183段落のエキスパートアノテーションによる272の判決のMADONデータセットを作成します。
ModernBERT、Llama 3.1、従来の機能ベースの機械学習を組み合わせた3段階のパイプラインは、決定分類に有望な結果をもたらす。
論文 参考訳(メタデータ) (2025-12-12T08:37:53Z) - LegalChainReasoner: A Legal Chain-guided Framework for Criminal Judicial Opinion Generation [6.754329137382816]
我々は,新たな法律AIタスクである司法意見生成を提案する。
同時に、法的推論と判決を同時に生成する。
われわれのアプローチは、柔軟な知識注入とエンドツーエンドの意見生成を保証する。
論文 参考訳(メタデータ) (2025-08-31T10:22:47Z) - RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.69183479148083]
法的判断予測(LJP)は、法的AIにおいて重要な課題である。
既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。
しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。
本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:50:21Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。