論文の概要: MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication
- arxiv url: http://arxiv.org/abs/2601.09853v1
- Date: Wed, 14 Jan 2026 20:23:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.889233
- Title: MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication
- Title(参考訳): MedRedFlag: LLMが現実世界の医療コミュニケーションにおける誤解をいかにリダイレクトするかを探る
- Authors: Sraavya Sambara, Yuan Pu, Ayman Ali, Vishala Mishra, Lionel Wong, Monica Agrawal,
- Abstract要約: 患者からの現実の健康に関する質問は、しばしば意図せずに偽の仮定や前提を埋め込む。
このようなケースでは、安全な医療コミュニケーションは通常、暗黙の誤解に対処し、基礎となる患者のコンテキストに応答する、リダイレクトを伴う。
本研究では,大規模言語モデル(LLM)が現実の健康問題に埋め込まれた誤った前提にどのように反応するかを検討する。
- 参考スコア(独自算出の注目度): 4.557109813131144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communication typically involves redirection: addressing the implicit misconception and then responding to the underlying patient context, rather than the original question. While large language models (LLMs) are increasingly being used by lay users for medical advice, they have not yet been tested for this crucial competency. Therefore, in this work, we investigate how LLMs react to false premises embedded within real-world health questions. We develop a semi-automated pipeline to curate MedRedFlag, a dataset of 1100+ questions sourced from Reddit that require redirection. We then systematically compare responses from state-of-the-art LLMs to those from clinicians. Our analysis reveals that LLMs often fail to redirect problematic questions, even when the problematic premise is detected, and provide answers that could lead to suboptimal medical decision making. Our benchmark and results reveal a novel and substantial gap in how LLMs perform under the conditions of real-world health communication, highlighting critical safety concerns for patient-facing medical AI systems. Code and dataset are available at https://github.com/srsambara-1/MedRedFlag.
- Abstract(参考訳): 患者からの現実の健康に関する質問は、しばしば意図せずに偽の仮定や前提を埋め込む。
このような場合、安全な医療コミュニケーションには、通常、暗黙の誤解に対処し、元の質問ではなく、基礎となる患者コンテキストに応答する、リダイレクト(リダイレクト)が伴う。
大規模言語モデル (LLMs) は, 一般ユーザによる医療アドバイスでの利用が増えているが, この重要な能力についてはまだテストされていない。
そこで本研究では,LLMが現実の健康問題に埋め込まれた虚偽の前提に対してどのように反応するかを検討する。
Redditから得られた1100以上の質問のデータセットであるMedRedFlagを、半自動でキュレートするパイプラインを開発した。
次に,最先端のLCMからの反応と臨床医の反応を系統的に比較した。
我々の分析では、問題前提が検出された場合でも、LCMは問題のある質問のリダイレクトに失敗することが多く、また、最適な医療判断につながる可能性のある回答を提供する。
我々のベンチマークと結果から、LLMが現実の健康コミュニケーションの条件下でどのように機能するかという、新たな大きなギャップが明らかとなり、患者が直面する医療AIシステムにとって重要な安全性上の懸念が浮かび上がっている。
コードとデータセットはhttps://github.com/srsambara-1/MedRedFlag.orgで公開されている。
関連論文リスト
- Dr. Bias: Social Disparities in AI-Powered Medical Guidance [0.04297070083645049]
大規模言語モデル(LLM)は競争力を持つことがますます証明されている。
LLMを医療アドバイス生成に使用すると、社会集団間で体系的に異なる応答が生成されることを示す。
特に、内因性および間質性患者は、読みやすく、より複雑でないアドバイスを受ける。
論文 参考訳(メタデータ) (2025-10-10T09:06:35Z) - Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases [7.894865736540358]
大規模言語モデル(LLMs)は、医学(自己診断)や予備的トリアージなどの高度な応用に用いられている。
本稿では, LLMの有効性を評価するために, クラウドソーシングによる新たなアプローチを活用した大学レベルのコンペから得られた知見について述べる。
論文 参考訳(メタデータ) (2025-06-13T17:12:47Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language Models [26.464489158584463]
大規模言語モデル(LLM)は、Web検索のような伝統的な情報探索メカニズムを補完し始めている。
LLMは幻覚を起こす傾向があり、不正確な情報や偽造情報を生成する。
本研究は, LLMによる患者からのリアルタイム医療クエリに対する幻覚反応の先駆的な研究である。
論文 参考訳(メタデータ) (2024-09-29T00:09:01Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Can AI Relate: Testing Large Language Model Response for Mental Health Support [23.97212082563385]
大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。
精神医療の自動化に向けて, LLM 反応が有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。
論文 参考訳(メタデータ) (2024-05-20T13:42:27Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。