論文の概要: AR-BENCH: Benchmarking Legal Reasoning with Judgment Error Detection, Classification and Correction
- arxiv url: http://arxiv.org/abs/2601.22742v1
- Date: Fri, 30 Jan 2026 09:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.343729
- Title: AR-BENCH: Benchmarking Legal Reasoning with Judgment Error Detection, Classification and Correction
- Title(参考訳): AR-BENCH: 判断誤差検出・分類・補正による法理推論のベンチマーク
- Authors: Yifei Li, Richong Zhang, Wanyu Tu, Zhijie Nie, Haokun Luo, Chuantao Yin, Pengchong Li,
- Abstract要約: 法的判断は、事件状況の複雑さと法的概念の抽象的な性質による誤りを含むことがある。
現在の法的AI研究は、判断予測や法的文書生成のようなタスクに焦点を当てている。
本稿では,モデルの診断的推論と信頼性を法的に評価することを目的とした新しいタスクAPPELLATE REVIEWを紹介する。
- 参考スコア(独自算出の注目度): 30.1142279338937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal judgments may contain errors due to the complexity of case circumstances and the abstract nature of legal concepts, while existing appellate review mechanisms face efficiency pressures from a surge in case volumes. Although current legal AI research focuses on tasks like judgment prediction and legal document generation, the task of judgment review differs fundamentally in its objectives and paradigm: it centers on detecting, classifying, and correcting errors after a judgment is issued, constituting anomaly detection rather than prediction or generation. To address this research gap, we introduce a novel task APPELLATE REVIEW, aiming to assess models' diagnostic reasoning and reliability in legal practice. We also construct a novel dataset benchmark AR-BENCH, which comprises 8,700 finely annotated decisions and 34,617 supplementary corpora. By evaluating 14 large language models, we reveal critical limitations in existing models' ability to identify legal application errors, providing empirical evidence for future improvements.
- Abstract(参考訳): 法的な判断は、ケース状況の複雑さや法的概念の抽象的な性質による誤りを含む場合もあるが、既存の審査機構では、ケースボリュームの急増による効率の低下に直面している。
現在の法的AI研究は、判断予測や法的文書生成のようなタスクに焦点を当てているが、判断レビューのタスクは、その目的とパラダイムにおいて根本的に異なる: 判断が発行された後にエラーを検出し、分類し、修正すること、予測や生成ではなく異常検出を構成すること。
そこで本研究では,モデルの診断的推論と信頼性を法的に評価することを目的とした,新たな課題APPELLATE REVIEWを提案する。
また,8,700個の細かな注釈付き決定と34,617個の補足コーパスからなる新しいベンチマークAR-BENCHを構築した。
14の大規模言語モデルを評価することで、既存のモデルが法的なアプリケーションエラーを識別する能力の限界を明らかにし、将来の改善の実証的な証拠を提供する。
関連論文リスト
- AppellateGen: A Benchmark for Appellate Legal Judgment Generation [30.9030336647868]
7,351対のケースペアからなる第2のインスタンス法定判断生成のためのベンチマークであるAppellateGenを紹介する。
このタスクは、最初の評決と明らかな更新について推論することで、法的に拘束力のある判断を起草するモデルを必要とする。
本稿では,SOPに基づく法的マルチエージェントシステム(SLMAS)を提案し,その生成過程を個別の課題識別,検索,起草の段階に分解する。
論文 参考訳(メタデータ) (2026-01-04T02:15:17Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - AppealCase: A Dataset and Benchmark for Civil Case Appeal Scenarios [47.83822985839837]
本稿では,91件の民事事件の1万対の実世界と一致した第1インスタンスと第2インスタンスの文書からなるFiceCaseデータセットを提案する。
このデータセットには、判断の逆転、逆転理由、引用された法的規定、クレームレベルの決定、第2のインスタンスに新たな情報があるかどうかという5つの側面に沿った詳細なアノテーションも含まれている。
実験結果から, すべてのモデルが判定逆転予測タスクにおいて50%未満のF1スコアを達成し, 魅力シナリオの複雑さと課題を浮き彫りにしていることがわかった。
論文 参考訳(メタデータ) (2025-05-22T10:50:33Z) - Enabling Discriminative Reasoning in LLMs for Legal Judgment Prediction [23.046342240176575]
人間の推論に触発されたAsk-Discriminate-Predict(ADAPT)推論フレームワークを紹介する。
ADAPTは、ケース事実を分解し、潜在的な電荷を識別し、最終的な判断を予測する。
広く利用されている2つのデータセットに対して行われた実験は、法的な判断予測において、我々のフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-02T05:43:15Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z) - Legal Judgment Prediction with Multi-Stage CaseRepresentation Learning
in the Real Court Setting [25.53133777558123]
本稿では, 実地裁判所から新たなデータセットを導入し, 法的な判断を合理的に百科事典的に予測する。
大規模な民事裁判データセットを用いた広範な実験は、提案モデルが、法的判断予測のためのクレーム、事実、議論の間の相互作用をより正確に特徴付けることができることを示している。
論文 参考訳(メタデータ) (2021-07-12T04:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。