論文の概要: The Craft of Selective Prediction: Towards Reliable Case Outcome Classification -- An Empirical Study on European Court of Human Rights Cases
- arxiv url: http://arxiv.org/abs/2409.18645v1
- Date: Fri, 27 Sep 2024 11:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 18:11:57.482212
- Title: The Craft of Selective Prediction: Towards Reliable Case Outcome Classification -- An Empirical Study on European Court of Human Rights Cases
- Title(参考訳): 選択予測の工芸 : 信頼性の高い事例アウトカム分類を目指して -欧州人権裁判所における実証的研究-
- Authors: T. Y. S. S. Santosh, Irtiza Chowdhury, Shanshan Xu, Matthias Grabmair,
- Abstract要約: 本稿では,COCモデルの設計選択が選択予測の枠組みにおけるCOCモデルの信頼性にどのように影響するかを実験的に検討する。
欧州人権裁判所(ECtHR)の事例に焦点をあてたマルチラベルCOCタスクの実験では,キャリブレーションを改善するために,多種多様なドメイン固有の事前学習コーパスの重要性を強調した。
- 参考スコア(独自算出の注目度): 1.9570703832723582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-stakes decision-making tasks within legal NLP, such as Case Outcome Classification (COC), quantifying a model's predictive confidence is crucial. Confidence estimation enables humans to make more informed decisions, particularly when the model's certainty is low, or where the consequences of a mistake are significant. However, most existing COC works prioritize high task performance over model reliability. This paper conducts an empirical investigation into how various design choices including pre-training corpus, confidence estimator and fine-tuning loss affect the reliability of COC models within the framework of selective prediction. Our experiments on the multi-label COC task, focusing on European Court of Human Rights (ECtHR) cases, highlight the importance of a diverse yet domain-specific pre-training corpus for better calibration. Additionally, we demonstrate that larger models tend to exhibit overconfidence, Monte Carlo dropout methods produce reliable confidence estimates, and confident error regularization effectively mitigates overconfidence. To our knowledge, this is the first systematic exploration of selective prediction in legal NLP. Our findings underscore the need for further research on enhancing confidence measurement and improving the trustworthiness of models in the legal domain.
- Abstract(参考訳): ケースアウトカム分類(COC)のような法的NLPにおける高い意思決定タスクでは、モデルの予測信頼度を定量化することが重要である。
信頼度推定は、特にモデルの確実性が低い場合や、ミスの結果が重要な場合など、人間がより情報的な決定を下すことを可能にする。
しかしながら、既存のCOC作業の多くは、モデルの信頼性よりも高いタスクパフォーマンスを優先している。
本稿では, 事前学習コーパス, 信頼度推定器, 微調整損失などの設計選択が, 選択予測の枠組みにおけるCOCモデルの信頼性にどのように影響するかを実験的に検討する。
欧州人権裁判所(ECtHR)の事例に焦点をあてたマルチラベルCOCタスクの実験では,キャリブレーションを改善するために,多種多様なドメイン固有の事前学習コーパスの重要性を強調した。
さらに,大規模なモデルでは過信感を示す傾向があり,モンテカルロのドロップアウト法では信頼性の高い信頼度推定が得られ,信頼性の高い誤差正規化は過信を効果的に緩和することを示した。
我々の知る限り、法的NLPにおける選択的予測の体系的な調査はこれが初めてである。
本研究は,法域におけるモデルの信頼性向上と信頼性向上に向けたさらなる研究の必要性を浮き彫りにするものである。
関連論文リスト
- Quantifying calibration error in modern neural networks through evidence based theory [0.0]
本稿では、予測エラー(ECE)の評価に主観的論理を組み込むことにより、ニューラルネットワークの信頼性を定量化する新しい枠組みを提案する。
我々は,MNISTおよびCIFAR-10データセットを用いた実験により,信頼性が向上したことを示す。
提案されたフレームワークは、医療や自律システムといったセンシティブな分野における潜在的な応用を含む、AIモデルのより解釈可能でニュアンスな評価を提供する。
論文 参考訳(メタデータ) (2024-10-31T23:54:21Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - BayesJudge: Bayesian Kernel Language Modelling with Confidence Uncertainty in Legal Judgment Prediction [14.672477787408887]
深層学習と深層ガウス過程の相乗効果を利用して不確実性を定量化するBayesJudgeという新しい手法を提案する。
提案手法は,予測精度と信頼性推定の両方で既存の手法を超越し,カーネルを介した情報的事前およびフレキシブルなデータモデリングを利用する。
また,信頼できない予測の精査を自動化する最適解を導入し,モデル予測の精度を最大27%向上させた。
論文 参考訳(メタデータ) (2024-04-16T11:42:06Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Towards Calibrated Deep Clustering Network [60.71776081164377]
ディープクラスタリングでは、特定のクラスタに属するサンプルに対する推定信頼度はその実際の予測精度を大きく上回る。
推定された信頼度と実際の精度を効果的にキャリブレーションできる新しいデュアルヘッド(キャリブレーションヘッドとクラスタリングヘッド)深層クラスタリングモデルを提案する。
大規模実験により, 提案手法は, 最先端の深層クラスタリング手法を10倍に越えるだけでなく, クラスタリング精度も大幅に向上した。
論文 参考訳(メタデータ) (2024-03-04T11:23:40Z) - Multi-Perspective Consistency Enhances Confidence Estimation in Large
Language Models [27.63938857490995]
本研究は,大規模言語モデルの信頼性評価の改善に焦点を当てる。
言語モデルにおける自己認識の脆弱さを考慮して,マルチパースペクティブ・一貫性(MPC)法を提案する。
8つの公開データセットの実験結果は、我々のMPCが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-02-17T13:37:39Z) - U-Trustworthy Models.Reliability, Competence, and Confidence in
Decision-Making [0.21756081703275998]
信頼性の正確な数学的定義を$mathcalU$-trustworthinessと呼ぶ。
$mathcalU$-trustworthinessの文脈において、適切にランク付けされたモデルは本質的に$mathcalU$-trustworthyであることが証明される。
我々は、信頼度を優先する尺度として、AUCメートル法の採用を提唱する。
論文 参考訳(メタデータ) (2024-01-04T04:58:02Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Confidence-Calibrated Face and Kinship Verification [8.570969129199467]
検証モデルにより、類似度スコアを任意の顔対に対する信頼スコアに変換することができる効果的な信頼度尺度を導入する。
また,実装が容易で,既存の検証モデルにも容易に適用可能な,信頼性校正アプローチであるAngular Scaling(ASC)を提案する。
我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度校正ソリューションを提示した。
論文 参考訳(メタデータ) (2022-10-25T10:43:46Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。