Fugu-MT 論文翻訳(概要): This Treatment Works, Right? Evaluating LLM Sensitivity to Patient Question Framing in Medical QA

論文の概要: This Treatment Works, Right? Evaluating LLM Sensitivity to Patient Question Framing in Medical QA

arxiv url: http://arxiv.org/abs/2604.05051v1
Date: Mon, 06 Apr 2026 18:03:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-08 17:42:09.425978
Title: This Treatment Works, Right? Evaluating LLM Sensitivity to Patient Question Framing in Medical QA
Title（参考訳）: この治療は効くか? 医学的QAにおける患者の質問に対するLCM感度の評価
Authors: Hye Sun Yun, Geetika Kapoor, Michael Mackert, Ramez Kouzy, Wei Xu, Junyi Jessy Li, Byron C. Wallace,
Abstract要約: 大規模言語モデル(LLM)は、フレーズの発声に敏感であり、質問の語源に影響を受けやすい。医療質問応答(QA)のための制御検索強化世代(RAG)設定の体系的評価を通じてこれを検証する。臨床試験の要約に基づいた6,614組のクエリペアのデータセットを構築し,8つのLCM間の応答一貫性を評価する。
参考スコア（独自算出の注目度）: 35.372014797343546
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Patients are increasingly turning to large language models (LLMs) with medical questions that are complex and difficult to articulate clearly. However, LLMs are sensitive to prompt phrasings and can be influenced by the way questions are worded. Ideally, LLMs should respond consistently regardless of phrasing, particularly when grounded in the same underlying evidence. We investigate this through a systematic evaluation in a controlled retrieval-augmented generation (RAG) setting for medical question answering (QA), where expert-selected documents are used rather than retrieved automatically. We examine two dimensions of patient query variation: question framing (positive vs. negative) and language style (technical vs. plain language). We construct a dataset of 6,614 query pairs grounded in clinical trial abstracts and evaluate response consistency across eight LLMs. Our findings show that positively- and negatively-framed pairs are significantly more likely to produce contradictory conclusions than same-framing pairs. This framing effect is further amplified in multi-turn conversations, where sustained persuasion increases inconsistency. We find no significant interaction between framing and language style. Our results demonstrate that LLM responses in medical QA can be systematically influenced through query phrasing alone, even when grounded in the same evidence, highlighting the importance of phrasing robustness as an evaluation criterion for RAG-based systems in high-stakes settings.
Abstract（参考訳）: 患者は、より複雑で明瞭に説明が難しい医学的疑問を抱えて、大きな言語モデル(LLM)に目を向けている。しかし、LLMはフレーズの発声に敏感であり、質問の発声の仕方に影響を受けやすい。理想的には、LLMは言い回しによらず一貫して応答するべきである。本稿では、専門家が選択した文書を自動検索するよりもむしろ活用する医療質問応答(QA)のための制御された検索強化世代(RAG)設定において、これを体系的に評価することによって検討する。患者クエリ変動の2つの側面として,質問フレーミング(肯定的対否定的)と言語スタイル(技術的対平易言語)について検討する。臨床試験の要約に基づいた6,614組のクエリペアのデータセットを構築し,8つのLCM間の応答一貫性を評価する。以上の結果から, 正および負のフレームのペアは, 同一フレーミングペアよりも矛盾する結論を導出する可能性が有意に高いことがわかった。このフレーミング効果は、持続的な説得が一貫性を増すマルチターン会話においてさらに増幅される。フレーミングと言語スタイルの間に意味のある相互作用は見つからない。以上の結果から, 医療用QAにおけるLCM応答は, 同一のエビデンスに基づいた場合であっても, 問合せだけで体系的に影響しうることを示すとともに, RAG系システムの評価基準としてのロバスト性の重要性を浮き彫りにした。

関連論文リスト

When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。 LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文参考訳（メタデータ） (2026-02-27T21:09:43Z)
IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文参考訳（メタデータ） (2026-02-08T12:28:29Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
OLAPH: Improving Factuality in Biomedical Long-form Question Answering [15.585833125854418]
MedLFQAは、バイオメディカルドメインに関連する長文質問回答データセットを用いて再構成されたベンチマークデータセットである。また,コスト効率と多面的自動評価を利用した,シンプルで斬新なフレームワークであるOLAPHを提案する。以上の結果から,OLAPHフレームワークでトレーニングした7B LLMでは,医療専門家の回答に匹敵する回答が得られた。
論文参考訳（メタデータ） (2024-05-21T11:50:16Z)
Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。 GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。 GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文参考訳（メタデータ） (2024-01-23T22:03:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。