Fugu-MT 論文翻訳(概要): Addressing cognitive bias in medical language models

論文の概要: Addressing cognitive bias in medical language models

arxiv url: http://arxiv.org/abs/2402.08113v2
Date: Wed, 14 Feb 2024 17:52:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 11:54:23.618669
Title: Addressing cognitive bias in medical language models
Title（参考訳）: 医療言語モデルにおける認知バイアスへの対処
Authors: Samuel Schmidgall, Carl Harris, Ime Essien, Daniel Olshvang, Tawsifur Rahman, Ji Woong Kim, Rojin Ziaei, Jason Eshraghian, Peter Abadir, Rama Chellappa
Abstract要約: 大規模言語モデル(LLM)における認知バイアスを評価するための新しいベンチマークであるBiasMedQAを開発した。臨床関連認知バイアスを再現するために,USMLEステップ1,2,3の1,273質問に対して6つのモデルを検討した。 Llama 2 70B-chat や PMC Llama 13B と対照的に, GPT-4 は認知バイアスの影響を受けない。
参考スコア（独自算出の注目度）: 25.58126133789956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The integration of large language models (LLMs) into the medical field has gained significant attention due to their promising accuracy in simulated clinical decision-making settings. However, clinical decision-making is more complex than simulations because physicians' decisions are shaped by many factors, including the presence of cognitive bias. However, the degree to which LLMs are susceptible to the same cognitive biases that affect human clinicians remains unexplored. Our hypothesis posits that when LLMs are confronted with clinical questions containing cognitive biases, they will yield significantly less accurate responses compared to the same questions presented without such biases. In this study, we developed BiasMedQA, a novel benchmark for evaluating cognitive biases in LLMs applied to medical tasks. Using BiasMedQA we evaluated six LLMs, namely GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 2 70B-chat, and the medically specialized PMC Llama 13B. We tested these models on 1,273 questions from the US Medical Licensing Exam (USMLE) Steps 1, 2, and 3, modified to replicate common clinically-relevant cognitive biases. Our analysis revealed varying effects for biases on these LLMs, with GPT-4 standing out for its resilience to bias, in contrast to Llama 2 70B-chat and PMC Llama 13B, which were disproportionately affected by cognitive bias. Our findings highlight the critical need for bias mitigation in the development of medical LLMs, pointing towards safer and more reliable applications in healthcare.
Abstract（参考訳）: 医療分野への大型言語モデル(LLM)の統合は, 臨床意思決定のシミュレーションにおいて有望な精度で注目されている。しかし、医師の判断は認知バイアスの存在を含む多くの要因によって形成されるため、臨床意思決定はシミュレーションよりも複雑である。しかし、LLMがヒト臨床医に影響を及ぼす認知バイアスの程度は未解明のままである。我々の仮説は、llmが認知バイアスを含む臨床質問に直面すると、そのようなバイアスなしで提示される同じ質問に対して、その回答は極めて少ないと仮定する。本研究では,LLMの認知バイアス評価のための新しいベンチマークであるBiasMedQAを開発した。 BiasMedQAを用いて, GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 270B-chat, PMC Llama 13Bの6種類のLCMを評価した。米国医学ライセンス試験(usmle)のステップ1、ステップ2、ステップ3から1273の質問に対して、臨床に関連する一般的な認知バイアスを再現するためにこれらのモデルをテストした。 llama 2 70b-chat と pmc llama 13b とは対照的に,gpt-4 のバイアスに対する回復力は,認知バイアスによって不釣り合いに影響を受ける。本研究は,医療用LSMの開発において,より安全で信頼性の高い医療応用をめざして,バイアス軽減の必要性を強調した。

関連論文リスト

Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。 Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文参考訳（メタデータ） (2025-08-29T08:58:39Z)
CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering [1.0262304700896199]
我々は,100人のメンタルヘルス専門家による大規模ベンチマークであるCounselBenchを紹介し,大規模言語モデル(LLM)の評価とストレステストを行う。最初のコンポーネントであるCounselBench-EVALは、公開フォーラムCounselChatの患者に対する質問に対して、GPT-4、LLaMA 3、Gemini、およびヒトセラピストから2000の専門家による回答の評価を含んでいる。専門家による評価では、LLMはいくつかの次元において高いスコアを得る一方で、非建設的フィードバック、過度な一般化、限定されたパーソナライゼーションや関連性など、繰り返し発生する問題も示している。
論文参考訳（メタデータ） (2025-06-10T08:53:06Z)
LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
MedPAIR: Measuring Physicians and AI Relevance Alignment in Medical Question Answering [29.289606699835293]
大規模言語モデル (LLM) は様々なQAベンチマークで顕著な性能を示した。我々は,医師研修生とLCMがQA質問に答える際の関連情報を優先する方法を評価するために,MedPAIRデータセットを導入した。
論文参考訳（メタデータ） (2025-05-29T22:23:48Z)
Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions [16.21971764311474]
実際の患者から得られた癌関連質問に対して,大言語モデル(LLMs)を評価した。 LLMは、しばしば質問における偽の前提を認識または対処するのに失敗する。以上の結果から,LSMの臨床的信頼性に重大なギャップがあることが示唆された。
論文参考訳（メタデータ） (2025-04-15T16:37:32Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文参考訳（メタデータ） (2024-10-28T16:38:20Z)
Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文参考訳（メタデータ） (2024-10-27T23:48:47Z)
How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文参考訳（メタデータ） (2024-10-21T23:14:10Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-06T08:41:46Z)
Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。 GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。 GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文参考訳（メタデータ） (2024-01-23T22:03:51Z)
Language models are susceptible to incorrect patient self-diagnosis in medical applications [0.0]
患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
論文参考訳（メタデータ） (2023-09-17T19:56:39Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。