Fugu-MT 論文翻訳(概要): Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases

論文の概要: Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases

arxiv url: http://arxiv.org/abs/2506.13805v1
Date: Fri, 13 Jun 2025 17:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.155604
Title: Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases
Title（参考訳）: GPT博士はあなたを今見ているが、そうすべきなのか? クラウドソーシング臨床例を用いた医学診断における大規模言語モデルのメリットとハームを探る
Authors: Bonam Mingole, Aditya Majumdar, Firdaus Ahmed Choudhury, Jennifer L. Kraschnewski, Shyam S. Sundar, Amulya Yadav,
Abstract要約: 大規模言語モデル(LLMs)は、医学(自己診断)や予備的トリアージなどの高度な応用に用いられている。本稿では, LLMの有効性を評価するために, クラウドソーシングによる新たなアプローチを活用した大学レベルのコンペから得られた知見について述べる。
参考スコア（独自算出の注目度）: 7.894865736540358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of Large Language Models (LLMs) in high-stakes applications such as medical (self-)diagnosis and preliminary triage raises significant ethical and practical concerns about the effectiveness, appropriateness, and possible harmfulness of the use of these technologies for health-related concerns and queries. Some prior work has considered the effectiveness of LLMs in answering expert-written health queries/prompts, questions from medical examination banks, or queries based on pre-existing clinical cases. Unfortunately, these existing studies completely ignore an in-the-wild evaluation of the effectiveness of LLMs in answering everyday health concerns and queries typically asked by general users, which corresponds to the more prevalent use case for LLMs. To address this research gap, this paper presents the findings from a university-level competition that leveraged a novel, crowdsourced approach for evaluating the effectiveness of LLMs in answering everyday health queries. Over the course of a week, a total of 34 participants prompted four publicly accessible LLMs with 212 real (or imagined) health concerns, and the LLM generated responses were evaluated by a team of nine board-certified physicians. At a high level, our findings indicate that on average, 76% of the 212 LLM responses were deemed to be accurate by physicians. Further, with the help of medical professionals, we investigated whether RAG versions of these LLMs (powered with a comprehensive medical knowledge base) can improve the quality of responses generated by LLMs. Finally, we also derive qualitative insights to explain our quantitative findings by conducting interviews with seven medical professionals who were shown all the prompts in our competition. This paper aims to provide a more grounded understanding of how LLMs perform in real-world everyday health communication.
Abstract（参考訳）: 医学的(自己)診断や予備的トリアージといった高度な応用におけるLLM(Large Language Models)の増殖は、これらの技術が健康に関する懸念や問い合わせに使用されることの有効性、適切性、および潜在的有害性について、倫理的および実践的な懸念を生じさせる。これまでの研究では、専門家が書いた健康質問やプロンプト、医学検査銀行からの質問、あるいは既存の臨床症例に基づく質問に対するLLMの有効性が検討されている。残念なことに、これらの既存の研究は、日常的な健康上の懸念や一般ユーザからの問い合わせに答える上で、LLMの有効性を夢中で評価することを完全に無視している。そこで本研究では,LLMsの有効性を評価するために,新たなクラウドソースアプローチを取り入れた大学レベルのコンペティションの成果を報告する。 1週間で合計34人の参加者が、現実の(あるいは想像された)健康上の懸念を持つ4つのLSMを公開し、LSMが生成した回答は、9人の医師チームによって評価された。以上の結果から, 平均212 LLM反応の76%が医師によって正確であることが示唆された。さらに,医療専門家の助けを借りて,これらのLSMのRAGバージョン(総合的な医療知識ベースをベースとした)が,LSMが生み出す応答の質を向上させることができるかどうかを検討した。また, コンペの参加者7名を対象に, 質的な知見を導き, 定量的知見の定量化を図った。本稿では,LLMが日常的な健康コミュニケーションにおいてどのように機能するかについて,より理解を深めることを目的としている。

関連論文リスト

MIRIAD: Augmenting LLMs with millions of medical query-response pairs [36.32674607022871]
医療用QAペア5,821,948の大規模キュレートコーパスであるMIRIADを紹介する。また,MIRIADの精度はRAGベースラインに比べて6.7%向上した。 56の医学分野にまたがるMIRIADのインタラクティブマップであるMIRIAD-Atlasについても紹介する。
論文参考訳（メタデータ） (2025-06-06T13:52:32Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [13.469665087042614]
従来の医学教育では、高度な臨床医が、EHRのプロトタイプに基づいて質問や回答を定式化する必要がある。メインストリームのLSMは,臨床医に近いレベルにおいて,現実のERHで質問や回答を生成できることがわかった。
論文参考訳（メタデータ） (2024-10-31T09:33:37Z)
Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文参考訳（メタデータ） (2024-10-27T23:48:47Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文参考訳（メタデータ） (2023-11-09T02:55:58Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)
Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文参考訳（メタデータ） (2023-07-10T21:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。