論文の概要: Faithfulness vs. Safety: Evaluating LLM Behavior Under Counterfactual Medical Evidence
- arxiv url: http://arxiv.org/abs/2601.11886v1
- Date: Sat, 17 Jan 2026 02:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.358804
- Title: Faithfulness vs. Safety: Evaluating LLM Behavior Under Counterfactual Medical Evidence
- Title(参考訳): フェイストフルネス vs. 安全: 医療現場におけるLCM行動の評価
- Authors: Kaijie Mo, Siddhartha Venkatayogi, Chantal Shaib, Ramez Kouzy, Wei Xu, Byron C. Wallace, Junyi Jessy Li,
- Abstract要約: 医学では、モデルが提供された文脈に忠実に従うことが望ましい。
しかし、もしコンテキストがモデル事前や安全プロトコルと一致しないとしたら、どうなるでしょう?
我々は,LCMが反事実的あるいは敵対的な医学的証拠を提示するとき,どのように振る舞うかを検討する。
- 参考スコア(独自算出の注目度): 35.40767722741185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In high-stakes domains like medicine, it may be generally desirable for models to faithfully adhere to the context provided. But what happens if the context does not align with model priors or safety protocols? In this paper, we investigate how LLMs behave and reason when presented with counterfactual or even adversarial medical evidence. We first construct MedCounterFact, a counterfactual medical QA dataset that requires the models to answer clinical comparison questions (i.e., judge the efficacy of certain treatments, with evidence consisting of randomized controlled trials provided as context). In MedCounterFact, real-world medical interventions within the questions and evidence are systematically replaced with four types of counterfactual stimuli, ranging from unknown words to toxic substances. Our evaluation across multiple frontier LLMs on MedCounterFact reveals that in the presence of counterfactual evidence, existing models overwhelmingly accept such "evidence" at face value even when it is dangerous or implausible, and provide confident and uncaveated answers. While it may be prudent to draw a boundary between faithfulness and safety, our findings reveal that there exists no such boundary yet.
- Abstract(参考訳): 医学のような高度な領域では、モデルが提供された文脈に忠実に従うことが一般的に望ましい。
しかし、もしコンテキストがモデル事前や安全プロトコルと一致しないとしたら、どうなるでしょう?
本稿では,LLMが反事実的あるいは敵対的な医学的証拠を提示する際の行動と理性について考察する。
最初にMedCounterFactを構築した。MedCounterFactは、臨床比較問題(特定の治療の有効性を判断し、文脈としてランダムに制御された臨床試験からなる証拠)にモデルが答えることを要求する医療QAデータセットである。
MedCounterFactでは、質問や証拠の実際の医療介入は、未知の単語から有毒物質まで、系統的に4種類の反事実的刺激に置き換えられる。
MedCounterFact 上での複数のフロンティア LLM に対する評価では,既存のモデルでは,危険あるいは不確実な場合でも,その「証拠」を顔の値で圧倒的に受け入れ,自信と未発見の回答が得られている。
信頼と安全の境界を描くことは賢明かもしれないが、我々の発見はそのような境界がまだ存在しないことを示している。
関連論文リスト
- MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs [7.2159153945746795]
既存の評価は、単独で実際の医療知識をテストするか、患者レベルの推論を正当性を検証せずに評価し、重大なギャップを残している。
我々はMIMIC-IV電子健康記録とUMLSやその他のバイオメディカル語彙から構築された統一知識ベースを結びつけるベンチマークであるMediEvalを紹介する。
MediEvalは、実際の患者コンテキスト内で、さまざまな事実的および反ファクト的医療声明を生成し、4つのクアドラント・フレームワーク間で体系的な評価を可能にする。
論文 参考訳(メタデータ) (2025-12-23T22:52:24Z) - Ask WhAI:Probing Belief Formation in Role-Primed LLM Agents [5.880756699132853]
本稿では,マルチエージェントインタラクションにおける信念状態の検査と摂動を行うシステムレベルのフレームワークであるAsk WhAIを紹介する。
本フレームワークをマルチエージェント共有メモリで有名な医療ケースシミュレータに適用する。
論文 参考訳(メタデータ) (2025-11-06T20:31:19Z) - Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs [9.291589998223696]
MedQA-Followupは,医療質問応答におけるマルチターンロバスト性を評価するためのフレームワークである。
MedQAデータセットの制御介入を用いて、5つの最先端LCMを評価する。
モデルは浅瀬の摂動下では合理的に良好に機能するが、マルチターン設定では深刻な脆弱性が現れる。
論文 参考訳(メタデータ) (2025-10-14T08:04:18Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Decide less, communicate more: On the construct validity of end-to-end fact-checking in medicine [59.604255567812714]
我々は、専門家が医療証拠を合成することによって、ソーシャルメディアからの真の主張を検証する方法を示す。
臨床試験の形で、野生の主張と科学的証拠を結びつける困難さ。
我々は,ファクトチェックは対話型コミュニケーション問題としてアプローチし,評価すべきであると主張している。
論文 参考訳(メタデータ) (2025-06-25T22:58:08Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。