論文の概要: Ethical AI on the Waitlist: Group Fairness Evaluation of LLM-Aided Organ Allocation
- arxiv url: http://arxiv.org/abs/2504.03716v1
- Date: Sat, 29 Mar 2025 04:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 06:23:31.888294
- Title: Ethical AI on the Waitlist: Group Fairness Evaluation of LLM-Aided Organ Allocation
- Title(参考訳): ウェイトリストにおける倫理的AI:LDM支援臓器配置の集団公正性評価
- Authors: Hannah Murray, Brian Hyeongseok Kim, Isabelle Lee, Jason Byun, Dani Yogatama, Evi Micha,
- Abstract要約: オルガンアロケーションをケーススタディとして,(1)選択1と(2)ランクオールの2つのタスクを紹介した。
ランクオールでは、LLMは腎臓の全ての候補をランク付けし、実際の割り当てプロセスを反映している。
従来の公正度指標はランク付けを考慮しないため、バイアスを捉えるためにボルダスコアの新たな応用を提案する。
- 参考スコア(独自算出の注目度): 19.66750942418172
- License:
- Abstract: Large Language Models (LLMs) are becoming ubiquitous, promising automation even in high-stakes scenarios. However, existing evaluation methods often fall short -- benchmarks saturate, accuracy-based metrics are overly simplistic, and many inherently ambiguous problems lack a clear ground truth. Given these limitations, evaluating fairness becomes complex. To address this, we reframe fairness evaluation using Borda scores, a method from voting theory, as a nuanced yet interpretable metric for measuring fairness. Using organ allocation as a case study, we introduce two tasks: (1) Choose-One and (2) Rank-All. In Choose-One, LLMs select a single candidate for a kidney, and we assess fairness across demographics using proportional parity. In Rank-All, LLMs rank all candidates for a kidney, reflecting real-world allocation processes. Since traditional fairness metrics do not account for ranking, we propose a novel application of Borda scoring to capture biases. Our findings highlight the potential of voting-based metrics to provide a richer, more multifaceted evaluation of LLM fairness.
- Abstract(参考訳): 大規模言語モデル(LLM)はユビキタスになりつつある。
ベンチマークは飽和し、精度ベースのメトリクスは過度に単純化され、本質的に曖昧な問題の多くは明確な根拠の真実を欠いている。
これらの制限を考えると、公平さの評価は複雑になる。
これを解決するために,投票理論からの手法であるボルダスコアを用いた公正度評価を,公平度を測定するためのニュアンス付きかつ解釈可能な計量として再設定した。
オルガンアロケーションをケーススタディとして,(1)選択1と(2)ランクオールの2つのタスクを紹介した。
Choose-Oneでは、LLMが腎臓の候補を1つ選択し、比例パリティを用いた人口動態の公平性を評価する。
ランクオールでは、LLMは腎臓の全ての候補をランク付けし、実際の割り当てプロセスを反映している。
従来の公正度指標はランク付けを考慮しないため、バイアスを捉えるためにボルダスコアの新たな応用を提案する。
本研究は,LLMフェアネスのよりリッチで多面的な評価を実現するための投票ベースの指標の可能性を明らかにするものである。
関連論文リスト
- EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.55871325700294]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。
大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。
論文 参考訳(メタデータ) (2024-11-25T17:28:44Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Fairness in Credit Scoring: Assessment, Implementation and Profit
Implications [4.19608893667939]
アルゴリズムによる識別は,比較的低コストで合理的なレベルまで低減できることを示す。
複数のフェアネス基準をほぼ同時に満たすことができ、スコアカードのフェアネスを測定するための適切な基準として分離を識別できる。
論文 参考訳(メタデータ) (2021-03-02T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。