論文の概要: mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support
- arxiv url: http://arxiv.org/abs/2509.02007v1
- Date: Tue, 02 Sep 2025 06:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.928916
- Title: mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support
- Title(参考訳): mFARM:臨床意思決定支援のためのHARMに基づく多面的公正度評価を目指して
- Authors: Shreyash Adappanavar, Krithi Shailya, Gokul S Krishnan, Sriraam Natarajan, Balaraman Ravindran,
- Abstract要約: 大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
- 参考スコア(独自算出の注目度): 10.90604216960609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) in high-stakes medical settings poses a critical AI alignment challenge, as models can inherit and amplify societal biases, leading to significant disparities. Existing fairness evaluation methods fall short in these contexts as they typically use simplistic metrics that overlook the multi-dimensional nature of medical harms. This also promotes models that are fair only because they are clinically inert, defaulting to safe but potentially inaccurate outputs. To address this gap, our contributions are mainly two-fold: first, we construct two large-scale, controlled benchmarks (ED-Triage and Opioid Analgesic Recommendation) from MIMIC-IV, comprising over 50,000 prompts with twelve race x gender variants and three context tiers. Second, we propose a multi-metric framework - Multi-faceted Fairness Assessment based on hARMs ($mFARM$) to audit fairness for three distinct dimensions of disparity (Allocational, Stability, and Latent) and aggregate them into an $mFARM$ score. We also present an aggregated Fairness-Accuracy Balance (FAB) score to benchmark and observe trade-offs between fairness and prediction accuracy. We empirically evaluate four open-source LLMs (Mistral-7B, BioMistral-7B, Qwen-2.5-7B, Bio-LLaMA3-8B) and their finetuned versions under quantization and context variations. Our findings showcase that the proposed $mFARM$ metrics capture subtle biases more effectively under various settings. We find that most models maintain robust performance in terms of $mFARM$ score across varying levels of quantization but deteriorate significantly when the context is reduced. Our benchmarks and evaluation code are publicly released to enhance research in aligned AI for healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)のハイテイクな医療環境への展開は、モデルが社会的バイアスを継承し増幅できるため、重要なAIアライメントの問題を引き起こす。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
これはまた、臨床的に不活性であり、安全だが潜在的に不正確な出力にデフォルトがあるため、公正なモデルを促進する。
まず、MIMIC-IVから2つの大規模で制御されたベンチマーク(ED-TriageとOpioid Analgesic Recommendation)を構築します。
次に,hARMs(mFARM$)に基づく多面的公正度評価(多面的公正度評価)を提案する。
また、フェアネスと予測精度のトレードオフをベンチマークし、観察するために、集約されたフェアネス・アキュレイシ・バランス(FAB)スコアも提示する。
我々は,4つのオープンソースLCM(Mistral-7B,BioMistral-7B,Qwen-2.5-7B,Bio-LLaMA3-8B)とその微調整バージョンを,量子化および文脈変化下で実証的に評価した。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
ほとんどのモデルは、様々な量子化レベルにわたる$mFARM$スコアで堅牢なパフォーマンスを維持しているが、コンテキストが減少すると著しく劣化する。
当社のベンチマークと評価コードは、医療のための連携AIの研究を強化するために公開されています。
関連論文リスト
- When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。
LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。
本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文 参考訳(メタデータ) (2026-02-27T21:09:43Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs [9.291589998223696]
MedQA-Followupは,医療質問応答におけるマルチターンロバスト性を評価するためのフレームワークである。
MedQAデータセットの制御介入を用いて、5つの最先端LCMを評価する。
モデルは浅瀬の摂動下では合理的に良好に機能するが、マルチターン設定では深刻な脆弱性が現れる。
論文 参考訳(メタデータ) (2025-10-14T08:04:18Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - MEGAN: Mixture of Experts for Robust Uncertainty Estimation in Endoscopy Videos [2.969789372985515]
我々は,複数のAI専門家による不確実性推定と予測を集約するマルチエキスパートゲーティングネットワークMEGANを提案する。
MEGANのゲーティングネットワークは、それぞれのEDLモデルからの予測と不確実性を最適に組み合わせ、全体的な予測信頼性とキャリブレーションを高める。
大規模な潰瘍性大腸炎(UC)臨床試験では、MEGANは既存の方法に比べてF1スコアが3.5%改善し、予想エラー(ECE)が30.5%減少した。
論文 参考訳(メタデータ) (2025-09-16T07:42:01Z) - Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。
簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。
我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark [27.134554623769898]
推論に基づくポーズ推定(RPE)ベンチマークは、ポーズ対応大規模言語モデル(MLLM)の広く採用されている評価標準として登場した。
公平で一貫した定量的評価を妨げる批判的かつベンチマーク品質の問題を特定しました。
論文 参考訳(メタデータ) (2025-07-17T17:33:11Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - ACE-$M^3$: Automatic Capability Evaluator for Multimodal Medical Models [34.81544597731073]
ACE-$M3$, textbfAutomatic textbfCapability textbfEvaluator for textbfMultimodal textbfMedical textbfModelsを紹介する。
最初に、標準的な医療評価基準に基づく詳細な分析と簡潔な最終スコアを提供するために、ブランチマージアーキテクチャを利用する。
論文 参考訳(メタデータ) (2024-12-16T05:15:43Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - MEDFAIR: Benchmarking Fairness for Medical Imaging [44.73351338165214]
MEDFAIRは、医療画像のための機械学習モデルの公正性をベンチマークするフレームワークである。
モデル選択基準の未検討の問題は、公正な結果に重大な影響を及ぼす可能性がある。
異なる倫理的原則を必要とするさまざまな医療応用シナリオを推奨する。
論文 参考訳(メタデータ) (2022-10-04T16:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。