Fugu-MT 論文翻訳(概要): Addressing cognitive bias in medical language models

論文の概要: Addressing cognitive bias in medical language models

arxiv url: http://arxiv.org/abs/2402.08113v3
Date: Tue, 20 Feb 2024 23:45:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 18:48:17.501775
Title: Addressing cognitive bias in medical language models
Title（参考訳）: 医療言語モデルにおける認知バイアスへの対処
Authors: Samuel Schmidgall, Carl Harris, Ime Essien, Daniel Olshvang, Tawsifur Rahman, Ji Woong Kim, Rojin Ziaei, Jason Eshraghian, Peter Abadir, Rama Chellappa
Abstract要約: BiasMedQAは、医療タスクに適用された大規模言語モデル(LLM)の認知バイアスを評価するためのベンチマークである。 USMLE(US Medical Licensing Exam)ステップ1、2、3の1273の質問に対して、6つのモデルを試した。 GPT-4は認知バイアスの影響を受けないLlama 2 70B-chatとPMC Llama 13Bとは対照的に, バイアスに対する耐性が顕著であった。
参考スコア（独自算出の注目度）: 25.58126133789956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is increasing interest in the application large language models (LLMs) to the medical field, in part because of their impressive performance on medical exam questions. While promising, exam questions do not reflect the complexity of real patient-doctor interactions. In reality, physicians' decisions are shaped by many complex factors, such as patient compliance, personal experience, ethical beliefs, and cognitive bias. Taking a step toward understanding this, our hypothesis posits that when LLMs are confronted with clinical questions containing cognitive biases, they will yield significantly less accurate responses compared to the same questions presented without such biases. In this study, we developed BiasMedQA, a benchmark for evaluating cognitive biases in LLMs applied to medical tasks. Using BiasMedQA we evaluated six LLMs, namely GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 2 70B-chat, and the medically specialized PMC Llama 13B. We tested these models on 1,273 questions from the US Medical Licensing Exam (USMLE) Steps 1, 2, and 3, modified to replicate common clinically-relevant cognitive biases. Our analysis revealed varying effects for biases on these LLMs, with GPT-4 standing out for its resilience to bias, in contrast to Llama 2 70B-chat and PMC Llama 13B, which were disproportionately affected by cognitive bias. Our findings highlight the critical need for bias mitigation in the development of medical LLMs, pointing towards safer and more reliable applications in healthcare.
Abstract（参考訳）: 医学分野への大規模言語モデル(llm)の適用への関心が高まっている。有望ではあるが、試験質問は実際の患者と医師の相互作用の複雑さを反映していない。実際には、医師の判断は、患者のコンプライアンス、個人的経験、倫理的信念、認知バイアスなど、多くの複雑な要因によって形成される。これを理解するための一歩を踏み出すと、llmが認知バイアスを含む臨床質問と向き合うと、そのようなバイアスなしで提示される同じ質問に比べて、その答えは有意に低いと仮定する。本研究では,医療タスクに適用されるllmの認知バイアスを評価するベンチマークであるbiasmedqaを開発した。 BiasMedQAを用いて, GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 270B-chat, PMC Llama 13Bの6種類のLCMを評価した。米国医学ライセンス試験(usmle)のステップ1、ステップ2、ステップ3から1273の質問に対して、臨床に関連する一般的な認知バイアスを再現するためにこれらのモデルをテストした。 llama 2 70b-chat と pmc llama 13b とは対照的に,gpt-4 のバイアスに対する回復力は,認知バイアスによって不釣り合いに影響を受ける。本研究は,医療用LSMの開発において,より安全で信頼性の高い医療応用をめざして,バイアス軽減の必要性を強調した。

関連論文リスト

Cancer-Myth: Evaluating AI Chatbot on Patient Questions with False Presuppositions [16.21971764311474]
実際の患者から得られた癌関連質問に対して,大言語モデル(LLMs)を評価した。 LLMは、しばしば質問における偽の前提を認識または対処するのに失敗する。以上の結果から,LSMの臨床的信頼性に重大なギャップがあることが示唆された。
論文参考訳（メタデータ） (2025-04-15T16:37:32Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文参考訳（メタデータ） (2024-10-28T16:38:20Z)
Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文参考訳（メタデータ） (2024-10-27T23:48:47Z)
How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文参考訳（メタデータ） (2024-10-21T23:14:10Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-06T08:41:46Z)
Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。 GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。 GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文参考訳（メタデータ） (2024-01-23T22:03:51Z)
Language models are susceptible to incorrect patient self-diagnosis in medical applications [0.0]
患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
論文参考訳（メタデータ） (2023-09-17T19:56:39Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。