論文の概要: Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs
- arxiv url: http://arxiv.org/abs/2510.12255v1
- Date: Tue, 14 Oct 2025 08:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.237845
- Title: Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs
- Title(参考訳): 浅部ロバスト性, 深部脆弱性:医療用LLMの多施設間評価
- Authors: Blazej Manczak, Eric Lin, Francisco Eiras, James O' Neill, Vaikkunth Mugunthan,
- Abstract要約: MedQA-Followupは,医療質問応答におけるマルチターンロバスト性を評価するためのフレームワークである。
MedQAデータセットの制御介入を用いて、5つの最先端LCMを評価する。
モデルは浅瀬の摂動下では合理的に良好に機能するが、マルチターン設定では深刻な脆弱性が現れる。
- 参考スコア(独自算出の注目度): 9.291589998223696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly transitioning into medical clinical use, yet their reliability under realistic, multi-turn interactions remains poorly understood. Existing evaluation frameworks typically assess single-turn question answering under idealized conditions, overlooking the complexities of medical consultations where conflicting input, misleading context, and authority influence are common. We introduce MedQA-Followup, a framework for systematically evaluating multi-turn robustness in medical question answering. Our approach distinguishes between shallow robustness (resisting misleading initial context) and deep robustness (maintaining accuracy when answers are challenged across turns), while also introducing an indirect-direct axis that separates contextual framing (indirect) from explicit suggestion (direct). Using controlled interventions on the MedQA dataset, we evaluate five state-of-the-art LLMs and find that while models perform reasonably well under shallow perturbations, they exhibit severe vulnerabilities in multi-turn settings, with accuracy dropping from 91.2% to as low as 13.5% for Claude Sonnet 4. Counterintuitively, indirect, context-based interventions are often more harmful than direct suggestions, yielding larger accuracy drops across models and exposing a significant vulnerability for clinical deployment. Further compounding analyses reveal model differences, with some showing additional performance drops under repeated interventions while others partially recovering or even improving. These findings highlight multi-turn robustness as a critical but underexplored dimension for safe and reliable deployment of medical LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に臨床医療に移行しているが、現実的な多ターン相互作用下での信頼性はいまだによく分かっていない。
既存の評価フレームワークは、典型的には理想的な条件下での単一ターン質問応答を評価し、矛盾する入力、誤解を招く文脈、権威の影響が一般的である医療相談の複雑さを見渡す。
MedQA-Followup(MedQA-Followup)は,医療質問応答におけるマルチターンロバストネスを体系的に評価するためのフレームワークである。
提案手法では,文脈フレーミング(間接的)と明示的提案(間接的)とを分離する間接的間接軸を導入するとともに,弱い頑健さ(初期的文脈を誤解させる)と深い頑健さ(各回答が交互にチャレンジした場合の精度を維持する)を区別する。
MedQAデータセットの制御された介入を用いて、5つの最先端LCMを評価し、モデルが浅い摂動下で合理的に機能する一方で、多ターン設定で深刻な脆弱性を示し、Claude Sonnet 4では91.2%から13.5%まで精度が低下した。
間接的、間接的、文脈に基づく介入は直接的提案よりも有害であり、モデル全体の精度が低下し、臨床展開に重大な脆弱性が露呈する。
さらなる複合分析によりモデルの違いが明らかとなり、追加の介入によるパフォーマンス低下を示すものもあれば、部分的に回復あるいは改善するものもある。
これらの知見は, 医療用LLMの安全かつ信頼性の高い展開において, 重要ではあるが未探索の次元として, マルチターンロバスト性を強調した。
関連論文リスト
- MedAgentAudit: Diagnosing and Quantifying Collaborative Failure Modes in Medical Multi-Agent Systems [28.028343705313805]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,医療相談のシミュレーションにおいて有望であることを示す。
しかし、その評価は最終回答精度に制限されることが多い。
この慣行は、内部の協調プロセスを不透明な「ブラックボックス」として扱う
論文 参考訳(メタデータ) (2025-10-11T11:48:57Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - EAGLE: Efficient Alignment of Generalized Latent Embeddings for Multimodal Survival Prediction with Interpretable Attribution Analysis [16.567468717846676]
既存のマルチモーダルアプローチは、単純化された融合戦略、膨大な計算要求、および臨床導入における解釈可能性の重要な障壁の欠如に悩まされている。
本稿では,注意に基づくマルチモーダル融合と包括的帰属分析により,これらの制約に対処する新しいディープラーニングフレームワークであるEagleを紹介する。
Eagleは、高度なAI機能と実用的なヘルスケアデプロイメントのギャップを埋め、マルチモーダルサバイバル予測のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-12T03:56:13Z) - On the Robustness of Medical Vision-Language Models: Are they Truly Generalizable? [0.9626666671366837]
我々は、複数の医療画像データセットに複数の摂動を適用した汚職ベンチマークであるMediMeta-Cを紹介する。
本稿では,事前訓練されたMVLMの視覚的エンコーダ適応であるRobustMedCLIPを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:08:31Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。