論文の概要: JustEva: A Toolkit to Evaluate LLM Fairness in Legal Knowledge Inference
- arxiv url: http://arxiv.org/abs/2509.12104v1
- Date: Mon, 15 Sep 2025 16:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.399606
- Title: JustEva: A Toolkit to Evaluate LLM Fairness in Legal Knowledge Inference
- Title(参考訳): JustEva: 法的知識推論におけるLLM公正性を評価するツールキット
- Authors: Zongyue Xue, Siyuan Zheng, Shaochun Wang, Yiran Hu, Shenran Wang, Yuxin Yao, Haitao Li, Qingyao Ai, Yiqun Liu, Yun Liu, Weixing Shen,
- Abstract要約: JustEvaは、法的タスクにおける大規模言語モデルの公平性を測定するために設計された、包括的なオープンソース評価ツールキットである。
JustEvaには,(1)65の法外要因をカバーする構造化ラベルシステム,(2)不整合性,バイアス,不整合性の3つのコアフェアネス指標,(3)頑健な統計的推測手法,(4)情報的可視化など,いくつかの利点がある。
- 参考スコア(独自算出の注目度): 29.883194885874797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of Large Language Models (LLMs) into legal practice raises pressing concerns about judicial fairness, particularly due to the nature of their "black-box" processes. This study introduces JustEva, a comprehensive, open-source evaluation toolkit designed to measure LLM fairness in legal tasks. JustEva features several advantages: (1) a structured label system covering 65 extra-legal factors; (2) three core fairness metrics - inconsistency, bias, and imbalanced inaccuracy; (3) robust statistical inference methods; and (4) informative visualizations. The toolkit supports two types of experiments, enabling a complete evaluation workflow: (1) generating structured outputs from LLMs using a provided dataset, and (2) conducting statistical analysis and inference on LLMs' outputs through regression and other statistical methods. Empirical application of JustEva reveals significant fairness deficiencies in current LLMs, highlighting the lack of fair and trustworthy LLM legal tools. JustEva offers a convenient tool and methodological foundation for evaluating and improving algorithmic fairness in the legal domain.
- Abstract(参考訳): LLM(Large Language Models)の法的実践への統合は、特に「ブラックボックス」プロセスの性質から、司法の公正性に対する懸念を喚起する。
本研究は、法的タスクにおけるLCMの公平性を測定するために設計された総合的かつオープンソースな評価ツールキットJustEvaを紹介する。
JustEvaには,(1)65の法外要因をカバーする構造化ラベルシステム,(2)不整合性,バイアス,不整合性の3つのコアフェアネス指標,(3)頑健な統計的推測手法,(4)情報的可視化など,いくつかの利点がある。
このツールキットは2種類の実験をサポートし,(1)提案したデータセットを用いてLLMから構造化された出力を生成し,(2)回帰や他の統計的手法を用いてLLMの出力に関する統計的解析と推論を行う。
JustEvaの実証的応用は、現在のLLMにおいて重要な公正性欠陥を明らかにし、公正で信頼できるLLM法ツールの欠如を強調している。
JustEvaは、法域におけるアルゴリズムの公正性を評価し改善するための便利なツールと方法論の基盤を提供する。
関連論文リスト
- Accept or Deny? Evaluating LLM Fairness and Performance in Loan Approval across Table-to-Text Serialization Approaches [57.5863675268117]
大規模言語モデル(LLM)は、ローン承認などの高い意思決定タスクにますます採用されています。
我々は、ガーナ、ドイツ、アメリカ合衆国における融資承認データセットのシリアライズされたローン承認データセットにおけるLCMの性能と公正性を評価する。
論文 参考訳(メタデータ) (2025-08-29T10:51:41Z) - LLMs on Trial: Evaluating Judicial Fairness for Large Language Models [18.895994052898754]
大規模言語モデル(LLM)は、その決定が権利や株式に影響を及ぼすハイテイク分野において、ますます使われている。
LLMsの司法公正性と社会正義への含意はいまだに過小評価されている。
LLMの公平度を測定するための総合的なフレームワークを構築し、65ラベルと161の値が選択される。
この枠組みを司法システムに適用し、177,100のユニークな事例事実からなる広範なデータセットJudiFairをコンパイルする。
論文 参考訳(メタデータ) (2025-07-14T22:56:58Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Analyzing Fairness of Computer Vision and Natural Language Processing Models [1.0923877073891446]
本研究は,Microsoft による Fairlearn と IBM による AIF360 の2つのフェアネスライブラリを利用する。
この研究は、コンピュータビジョン(CV)と自然言語処理(NLP)モデルを用いて、非構造化データセットに対するバイアスの評価と緩和に焦点を当てている。
その結果, モデルの性能を維持しつつ, バイアスを効果的に低減し, 緩和アルゴリズムの性能向上を図っている。
論文 参考訳(メタデータ) (2024-12-13T06:35:55Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。