論文の概要: Comparison of Unsupervised Metrics for Evaluating Judicial Decision Extraction
- arxiv url: http://arxiv.org/abs/2510.01792v1
- Date: Thu, 02 Oct 2025 08:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.056541
- Title: Comparison of Unsupervised Metrics for Evaluating Judicial Decision Extraction
- Title(参考訳): 司法判断抽出のための教師なし基準の比較
- Authors: Ivan Leonidovich Litvak, Anton Kostin, Fedor Lashkin, Tatiana Maksiyan, Sergey Lagutin,
- Abstract要約: この研究は、ロシアの1000の司法判断から7つの意味的ブロックを抽出する品質を評価するために、新しい定式化を含む16の教師なしメトリクスを評価した。
これらの指標は、文書ベース、セマンティック、構造的、疑似地下の真理、および法律固有のカテゴリーにまたがって、事前に注釈付けされた基礎の真理なしで機能する。
この研究は、司法分析と倫理的AIデプロイメントに影響を及ぼす、アノテーションのない評価ツールを提供することで、法的NLPを前進させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of artificial intelligence in legal natural language processing demands scalable methods for evaluating text extraction from judicial decisions. This study evaluates 16 unsupervised metrics, including novel formulations, to assess the quality of extracting seven semantic blocks from 1,000 anonymized Russian judicial decisions, validated against 7,168 expert reviews on a 1--5 Likert scale. These metrics, spanning document-based, semantic, structural, pseudo-ground truth, and legal-specific categories, operate without pre-annotated ground truth. Bootstrapped correlations, Lin's concordance correlation coefficient (CCC), and mean absolute error (MAE) reveal that Term Frequency Coherence (Pearson $r = 0.540$, Lin CCC = 0.512, MAE = 0.127) and Coverage Ratio/Block Completeness (Pearson $r = 0.513$, Lin CCC = 0.443, MAE = 0.139) best align with expert ratings, while Legal Term Density (Pearson $r = -0.479$, Lin CCC = -0.079, MAE = 0.394) show strong negative correlations. The LLM Evaluation Score (mean = 0.849, Pearson $r = 0.382$, Lin CCC = 0.325, MAE = 0.197) showed moderate alignment, but its performance, using gpt-4.1-mini via g4f, suggests limited specialization for legal textse. These findings highlight that unsupervised metrics, including LLM-based approaches, enable scalable screening but, with moderate correlations and low CCC values, cannot fully replace human judgment in high-stakes legal contexts. This work advances legal NLP by providing annotation-free evaluation tools, with implications for judicial analytics and ethical AI deployment.
- Abstract(参考訳): 法的自然言語処理における人工知能の急速な進歩は、司法判断からテキスト抽出を評価するスケーラブルな方法を要求する。
本研究は, 新規な定式化を含む16の教師なし指標を評価し, 匿名化された1000のロシア司法判断から7つの意味的ブロックを抽出し, 専門家7,168名に対して1--5Likert尺度で検証した。
これらの指標は、文書ベース、セマンティック、構造的、疑似地下の真理、および法律固有のカテゴリーにまたがって、事前に注釈付けされた基礎の真理なしで機能する。
ブートストラップ付き相関係数、Linの一致相関係数(CCC)、平均絶対誤差(MAE)は、Lin CCC = 0.540$、Lin CCC = 0.512, MAE = 0.127)とCoverage Ratio/Block Completeness(Pearson $r = 0.513$、Lin CCC = 0.443, MAE = 0.139)が専門家評価に最適であるのに対して、Lin Term Density(Pearson $r = -0.479$、Lin CCC = -0.079, MAE = 0.394)は強い負の相関を示す。
LLM評価スコア (mean = 0.849, Pearson $r = 0.382$, Lin CCC = 0.325, MAE = 0.197) は、適度なアライメントを示したが、g4fによるgpt-4.1-miniを使用した性能は、法的テキストの限定的な特殊化を示している。
これらの結果から,LLMに基づくアプローチを含む教師なしのメトリクスは,スケーラブルなスクリーニングを可能にするが,適度な相関やCCC値の低い場合には,高い法的文脈下での人間の判断を完全に置き換えることはできないことが示唆された。
この研究は、司法分析と倫理的AIデプロイメントに影響を及ぼす、アノテーションのない評価ツールを提供することで、法的NLPを前進させる。
関連論文リスト
- ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
クロードソネット4は、最高の客観的抽出精度(0.515)とキャリブレーション(ECE 0.296; Brier 0.324)を得る
実行可能であれば目標を公開し、それ以外は信頼による決定を下すことを推奨します。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Let's Measure Information Step-by-Step: LLM-Based Evaluation Beyond Vibes [14.371259136517802]
戦略ゲームと情報損失の関連性を利用して, 根拠のないAIシステムの堅牢性について検討する。
我々は,情報理論のメカニズムが対向境界に抵抗するかを解析し,有限サンプル操作を拡張して,有界f-分岐系が攻撃下で維持されることを示す。
論文 参考訳(メタデータ) (2025-08-07T15:11:43Z) - Claim Extraction for Fact-Checking: Data, Models, and Automated Metrics [0.0]
FEVERFactデータセットを公開し、4Kの文脈化されたウィキペディア文から17Kの原子的事実クレームを抽出した。
各メトリクスに対して、既に探索されたNLPタスクへの還元を用いてスケールを実装する。
我々の最も難しい指標である$F_fact$のランク付けされたモデルが変化しないことを確認するため、一般的なクレームの人間のグレーティングに対してメトリクスを検証する。
論文 参考訳(メタデータ) (2025-02-07T14:20:45Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - Assessing the Sensitivity and Alignment of FOL Closeness Metrics [10.795521518273214]
既存のNL-, FOL-, グラフベースメトリクスの感度について検討し, サンプルFOLとそれに対応する接地構造との差を捉えた。
メトリクスを組み合わせることで、個々のメトリクスに比べて堅牢性と感度が向上することを示す。
論文 参考訳(メタデータ) (2025-01-15T06:22:35Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。