論文の概要: Through the Lens of Split Vote: Exploring Disagreement, Difficulty and Calibration in Legal Case Outcome Classification
- arxiv url: http://arxiv.org/abs/2402.07214v3
- Date: Thu, 6 Jun 2024 10:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 23:40:31.362128
- Title: Through the Lens of Split Vote: Exploring Disagreement, Difficulty and Calibration in Legal Case Outcome Classification
- Title(参考訳): 散発投票のレンズを通して : 判例結果分類における診断・難易度・校正の探索
- Authors: Shanshan Xu, T. Y. S. S Santosh, Oana Ichim, Barbara Plank, Matthias Grabmair,
- Abstract要約: 法的決定では、裁判官が全会一致の判断を下すことができない場合に、分割票(SV)が発生する。
本稿では、自然に観察できる人間の不一致と価値の多元性として、分割投票を考察する。
我々の知る限り、法的NLPにおける人間の判断に対する校正の体系的な調査はこれが初めてである。
- 参考スコア(独自算出の注目度): 21.56347984160413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In legal decisions, split votes (SV) occur when judges cannot reach a unanimous decision, posing a difficulty for lawyers who must navigate diverse legal arguments and opinions. In high-stakes domains, understanding the alignment of perceived difficulty between humans and AI systems is crucial to build trust. However, existing NLP calibration methods focus on a classifier's awareness of predictive performance, measured against the human majority class, overlooking inherent human label variation (HLV). This paper explores split votes as naturally observable human disagreement and value pluralism. We collect judges' vote distributions from the European Court of Human Rights (ECHR), and present SV-ECHR, a case outcome classification (COC) dataset with SV information. We build a taxonomy of disagreement with SV-specific subcategories. We further assess the alignment of perceived difficulty between models and humans, as well as confidence- and human-calibration of COC models. We observe limited alignment with the judge vote distribution. To our knowledge, this is the first systematic exploration of calibration to human judgements in legal NLP. Our study underscores the necessity for further research on measuring and enhancing model calibration considering HLV in legal decision tasks.
- Abstract(参考訳): 法的決定では、裁判官が全会一致で決定を下すことができない場合に分裂票(SV)が発生し、様々な法的議論や意見をナビゲートしなければならない弁護士にとって困難を呈する。
ハイテイクなドメインでは、人間とAIシステム間の認識される困難の整合を理解することが、信頼を構築する上で不可欠である。
しかし,既存のNLPキャリブレーション手法は,人間に固有のラベル変動(HLV)を見越して,ヒトの多数派に対して測定された,分類者の予測性能に対する認識に焦点を当てている。
本稿では、自然に観察できる人間の不一致と価値の多元性として、分割投票を考察する。
欧州人権裁判所 (ECHR) から審査員の投票分布を収集し, SV情報を用いた事例結果分類(COC)データセットであるSV-ECHRを提示する。
SV固有のサブカテゴリとの相違の分類を構築した。
さらに、モデルと人間間の認識困難のアライメントと、COCモデルの信頼性と人間の校正を評価する。
我々は、審査員の投票分布との限定的な一致を観察する。
我々の知る限り、法的NLPにおける人間の判断に対する校正の体系的な調査はこれが初めてである。
本研究は,法的な決定課題におけるHLVを考慮したモデル校正の計測と強化について,さらなる研究の必要性を浮き彫りにするものである。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Algorithmic Arbitrariness in Content Moderation [1.4849645397321183]
コンテンツモデレーションツールは、サンプルを任意に有毒と分類する方法を示す。
我々は、国際公民権条約(ICCPR)が定める人権の観点からこれらの知見について議論する。
本研究は、コンテンツモデレーションアプリケーションにおいて、任意性の透明性を識別し、向上する必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-26T19:27:00Z) - From Dissonance to Insights: Dissecting Disagreements in Rationale
Construction for Case Outcome Classification [21.56347984160413]
ケースアウトカム分類(COC)は正確で信頼できるものでなければならない。
ケーススタディは、法的NLPでベンチマークデータセットを作成する際の、過度な複雑さを明らかにしている。
論文 参考訳(メタデータ) (2023-10-18T11:04:31Z) - Compatibility of Fairness Metrics with EU Non-Discrimination Laws:
Demographic Parity & Conditional Demographic Disparity [3.5607241839298878]
実証的な証拠は、機械学習(ML)技術によって駆動されるアルゴリズムによる決定が、法的に保護されたグループに対する差別を脅かしたり、新たな不公平な情報源を創り出すことを示唆している。
この研究は、公正度メトリックと公正度制約による法的公正性を保証するためのポイントを評価することを目的としています。
我々の実験と分析は、手元にあるケースと法的正当性に応じて、AIによる意思決定が法的な観点から公平である可能性を示唆している。
論文 参考訳(メタデータ) (2023-06-14T09:38:05Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Calibrating Predictions to Decisions: A Novel Approach to Multi-Class
Calibration [118.26862029820447]
我々は、下流の意思決定者に対して、予測された分布と真の分布を区別不能にする必要がある新しい概念、即時校正を導入します。
決定キャリブレーションは、皮膚病変の判定と、現代のニューラルネットワークを用いたImageNet分類を改善する。
論文 参考訳(メタデータ) (2021-07-12T20:17:28Z) - Equality before the Law: Legal Judgment Consistency Analysis for
Fairness [55.91612739713396]
本論文では,LInCo(Legal Inconsistency Coefficient)の判定不整合性評価指標を提案する。
法的な判断予測(LJP)モデルを用いて異なる集団の裁判官をシミュレートし、異なる集団で訓練されたLJPモデルによる判断結果の不一致を判断する。
私達はLInCoを実際の場合の不一致を探検するために使用し、次の観察に来ます:(1)地域およびジェンダーの不一致は法制度でありますが、ジェンダーの不一致は地方不一致より大いにより少しです。
論文 参考訳(メタデータ) (2021-03-25T14:28:00Z) - Predicting Court Decisions for Alimony: Avoiding Extra-legal Factors in
Decision made by Judges and Not Understandable AI Models [0.02578242050187029]
この目的のために,ランダムな森林と回帰モデルを組み合わせた説明可能なAIモデルを提案する。
フランスの司法管轄区域が引き起こした離婚問題において、多くの裁判所決定を使用することで、裁判官が下した決定には法外的要因があるかどうかを判断する。
論文 参考訳(メタデータ) (2020-07-09T14:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。