Fugu-MT 論文翻訳(概要): CLIMB: A Benchmark of Clinical Bias in Large Language Models

論文の概要: CLIMB: A Benchmark of Clinical Bias in Large Language Models

arxiv url: http://arxiv.org/abs/2407.05250v1
Date: Sun, 7 Jul 2024 03:41:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 20:37:03.745008
Title: CLIMB: A Benchmark of Clinical Bias in Large Language Models
Title（参考訳）: CLIMB:大規模言語モデルにおける臨床バイアスのベンチマーク
Authors: Yubo Zhang, Shudi Hou, Mingyu Derek Ma, Wei Wang, Muhao Chen, Jieyu Zhao,
Abstract要約: 大規模言語モデル(LLM)は、臨床的な意思決定にますます応用されている。バイアスを示す可能性は、臨床の株式に重大なリスクをもたらす。現在、LSMにおけるそのような臨床バイアスを体系的に評価するベンチマークが欠如している。
参考スコア（独自算出の注目度）: 39.82307008221118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly applied to clinical decision-making. However, their potential to exhibit bias poses significant risks to clinical equity. Currently, there is a lack of benchmarks that systematically evaluate such clinical bias in LLMs. While in downstream tasks, some biases of LLMs can be avoided such as by instructing the model to answer "I'm not sure...", the internal bias hidden within the model still lacks deep studies. We introduce CLIMB (shorthand for A Benchmark of Clinical Bias in Large Language Models), a pioneering comprehensive benchmark to evaluate both intrinsic (within LLMs) and extrinsic (on downstream tasks) bias in LLMs for clinical decision tasks. Notably, for intrinsic bias, we introduce a novel metric, AssocMAD, to assess the disparities of LLMs across multiple demographic groups. Additionally, we leverage counterfactual intervention to evaluate extrinsic bias in a task of clinical diagnosis prediction. Our experiments across popular and medically adapted LLMs, particularly from the Mistral and LLaMA families, unveil prevalent behaviors with both intrinsic and extrinsic bias. This work underscores the critical need to mitigate clinical bias and sets a new standard for future evaluations of LLMs' clinical bias.
Abstract（参考訳）: 大規模言語モデル(LLM)は、臨床的な意思決定にますます応用されている。しかしながら、彼らのバイアスを示す可能性は、臨床エクイティに重大なリスクをもたらす。現在、LSMにおけるそのような臨床バイアスを体系的に評価するベンチマークが欠如している。下流のタスクでは、モデルに"私は確信していない..."と答えるように指示するなど、LCMのバイアスを避けることができるが、モデルの内部バイアスは深い研究を欠いている。 CLIMB (A Benchmark of Clinical Bias in Large Language Models) は内因性 (LLM) と外因性 (下流タスク) の両方を評価するための総合的なベンチマークである。特に本研究では,複数の人口集団におけるLSMの格差を評価するために,新たな指標であるAssocMADを導入する。さらに,臨床診断予測の課題における外因性バイアスを評価するために,対物的介入を活用している。特にミストラル系およびLLaMA系では, 内因性および外因性の両方に偏りがみられた。この研究は、臨床バイアスを緩和する重要な必要性を浮き彫りにし、LSMsの臨床バイアスの今後の評価のための新しい基準を策定する。

関連論文リスト

REACT-LLM: A Benchmark for Evaluating LLM Integration with Causal Features in Clinical Prognostic Tasks [13.484012983177168]
大言語モデル(LLM)と因果学習はそれぞれ、臨床意思決定(CDM)に強い可能性を秘めている現実世界の医療では、結果に因果的影響のある特徴を特定することが、行動可能で信頼できる予測に不可欠である。本稿では,LEMと因果的特徴の組み合わせが臨床予後を向上するかどうかを評価するためのベンチマークであるREACT-LLMを紹介する。
論文参考訳（メタデータ） (2025-11-10T14:12:35Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Tell Me You're Biased Without Telling Me You're Biased -- Toward Revealing Implicit Biases in Medical LLMs [1.7166356507622822]
医学応用で使用される大きな言語モデル(LLM)は偏見と不公平なパターンを示すことが知られている。影響を効果的に緩和するためには、これらのバイアスパターンを特定することが重要です。本稿では,知識グラフ(KG)と補助LDMを組み合わせることで,複雑なバイアスパターンを体系的に明らかにする新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-07-26T02:33:48Z)
Bias in Large Language Models Across Clinical Applications: A Systematic Review [0.0]
大規模言語モデル(LLM)は、医療に急速に統合され、様々な臨床業務を強化することを約束している。本研究は, LLMの有病率, 出所, 徴候, 臨床的意義について検討する。
論文参考訳（メタデータ） (2025-04-03T13:32:08Z)
Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。医学的抽象化と推論コーパス(M-ARC)について紹介する。現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文参考訳（メタデータ） (2025-02-05T18:14:27Z)
Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Self-Preference Bias in LLM-as-a-Judge [13.880151307013321]
大規模言語モデル(LLM)における自己参照バイアスを測定するための新しい指標を提案する。以上の結果から, GPT-4は自己選好バイアスがかなり高いことが示唆された。このことは、偏見の本質は難易度にあることを示唆し、自己選好バイアスは LLM がより親しみやすいテキストを好むため存在することを示唆している。
論文参考訳（メタデータ） (2024-10-29T07:42:18Z)
How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文参考訳（メタデータ） (2024-10-21T23:14:10Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。 LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T20:24:50Z)
Aligning (Medical) LLMs for (Counterfactual) Fairness [2.089191490381739]
大規模言語モデル(LLM)は、医療および臨床決定支援アプリケーションのための有望なソリューションとして登場した。 LLMは様々な種類のバイアスを受けており、個人の不公平な扱い、健康格差の悪化、AIが強化された医療ツールへの信頼の低下につながる可能性がある。本稿では, 知識蒸留フレームワークにおける優先最適化手法を用いて, LLMの整列化のための新しいモデルアライメント手法を提案する。
論文参考訳（メタデータ） (2024-08-22T01:11:27Z)
Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data [9.90951705988724]
大規模言語モデル(LLM)は、社会的バイアスを継承し増幅する傾向がある。 LLMバイアスは、不公平な慣行をもたらし、社会的不平等を悪化させる。
論文参考訳（メタデータ） (2024-08-20T23:54:26Z)
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。 LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文参考訳（メタデータ） (2024-07-02T16:31:37Z)
Bias patterns in the application of LLMs for clinical decision support: A comprehensive study [2.089191490381739]
大きな言語モデル (LLMs) は、臨床意思決定プロセスを伝える強力な候補として登場した。これらのモデルは、デジタルランドスケープを形成する上で、ますます顕著な役割を担っている。 1) LLM は、患者の保護された属性(人種など)に基づいて、どの程度の社会的バイアスを示すのか、2) 設計選択(アーキテクチャ設計や戦略の推進など)は、観察されたバイアスにどのように影響するのか?
論文参考訳（メタデータ） (2024-04-23T15:52:52Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。