論文の概要: MedDialBench: Benchmarking LLM Diagnostic Robustness under Parametric Adversarial Patient Behaviors
- arxiv url: http://arxiv.org/abs/2604.06846v1
- Date: Wed, 08 Apr 2026 09:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.445896
- Title: MedDialBench: Benchmarking LLM Diagnostic Robustness under Parametric Adversarial Patient Behaviors
- Title(参考訳): MedDialBench:パラメトリック患者行動下でのLCM診断ロバストネスのベンチマーク
- Authors: Xiaotian Luo, Xun Jiang, Jiangcheng Wu,
- Abstract要約: MedDialBenchは、患者個々の行動次元が診断の堅牢性にどのように影響するかを制御し、量的応答で評価できるベンチマークである。
患者の行動は、論理的一貫性、健康認知、表現スタイル、開示、態度の5つの次元に分解される。
この制御された因子設計により、感度解析、線量応答プロファイリング、およびクロス次元相互作用検出が可能となる。
- 参考スコア(独自算出の注目度): 3.346370180968566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive medical dialogue benchmarks have shown that LLM diagnostic accuracy degrades significantly when interacting with non-cooperative patients, yet existing approaches either apply adversarial behaviors without graded severity or case-specific grounding, or reduce patient non-cooperation to a single ungraded axis, and none analyze cross-dimension interactions. We introduce MedDialBench, a benchmark enabling controlled, dose-response characterization of how individual patient behavior dimensions affect LLM diagnostic robustness. It decomposes patient behavior into five dimensions -- Logic Consistency, Health Cognition, Expression Style, Disclosure, and Attitude -- each with graded severity levels and case-specific behavioral scripts. This controlled factorial design enables graded sensitivity analysis, dose-response profiling, and cross-dimension interaction detection. Evaluating five frontier LLMs across 7,225 dialogues (85 cases x 17 configurations x 5 models), we find a fundamental asymmetry: information pollution (fabricating symptoms) produces 1.7-3.4x larger accuracy drops than information deficit (withholding information), and fabricating is the only configuration achieving statistical significance across all five models (McNemar p < 0.05). Among six dimension combinations, fabricating is the sole driver of super-additive interaction: all three fabricating-involving pairs produce O/E ratios of 0.70-0.81 (35-44% of eligible cases fail under the combination despite succeeding under each dimension alone), while all non-fabricating pairs show purely additive effects (O/E ~ 1.0). Inquiry strategy moderates deficit but not pollution: exhaustive questioning recovers withheld information, but cannot compensate for fabricated inputs. Models exhibit distinct vulnerability profiles, with worst-case drops ranging from 38.8 to 54.1 percentage points.
- Abstract(参考訳): 対話型医療対話ベンチマークでは、非協力的な患者と対話する際に、LCMの診断精度が著しく低下することが示されているが、既存のアプローチでは、グレードされた重症度やケース固有の接地を伴わない敵の行動を適用するか、患者非協力を1つの非段階の軸に減らすか、クロス次元の相互作用を解析しない。
MedDialBenchは、患者個々の行動次元がLSMの診断的堅牢性にどのように影響するかを制御し、量的に評価できるベンチマークである。
患者の行動は、論理的一貫性、健康認知、表現スタイル、開示、態度の5つの次元に分解される。
この制御された因子設計は、感度解析、線量-応答プロファイリング、およびクロス次元相互作用検出を可能にする。
7,225の対話(85ケース x 17 構成 x 5 モデル)で5つのフロンティア LLM を評価すると、基本的な非対称性が見つかる: 情報汚染(ファブリケート症状)は情報不足(情報保持)よりも1.7-3.4倍の精度低下を発生し、製造は5つのモデルで統計的意義を達成できる唯一の構成である(McNemar p < 0.05)。
6次元の組み合わせの中で、製造は超加法的相互作用の唯一の要因である: 3つの製造結合対はいずれも0.70-0.81のO/E比(各次元単独で成功するにもかかわらず、適用可能なケースの35-44%は結合の下で失敗する)を生成するが、全ての非ファブリケート対は純粋に加法的効果(O/E ~ 1.0)を示す。
徹底的な質問は、保持されていない情報を回復するが、製造された入力を補うことはできない。
モデルは異なる脆弱性プロファイルを示し、最悪のケースは38.8から54.1ポイントまで減少している。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - Clinician input steers frontier AI models toward both accurate and harmful decisions [10.599240857217811]
8つのフロンティアモデルにまたがる21の言語モデル (LLM) を, 差分診断生成と次のステップ勧告に基づいて評価した。
専門的な文脈は、21モデル全体にわたる正しい最終診断の包含を著しく改善した。
GPT-4o 実験では, 臨床症状の明確な不確実性信号により, 対側的文脈での診断性能が向上した。
論文 参考訳(メタデータ) (2026-03-14T23:47:53Z) - Advancing AI Trustworthiness Through Patient Simulation: Risk Assessment of Conversational Agents for Antidepressant Selection [1.90974530523188]
患者シミュレーターは、医療、言語、行動の次元によって異なる現実的で制御可能な患者相互作用を生成する。
シミュレーターにより、アノテータと独立したAI裁判官は、エージェントのパフォーマンスを評価し、幻覚と不正確さを特定し、さまざまな患者集団のリスクパターンを特徴づけることができる。
論文 参考訳(メタデータ) (2026-02-11T21:53:18Z) - Patient-Conditioned Adaptive Offsets for Reliable Diagnosis across Subgroups [11.237134615215977]
我々は,共有診断モデルを維持しながらサブグループ信頼性を向上させる患者条件適応フレームワークであるHyperAdaptを紹介する。
複数の公開医用画像ベンチマークによる実験により、提案手法は、全体的な精度を犠牲にすることなく、サブグループレベルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-01-19T14:33:41Z) - A Sparse-Attention Deep Learning Model Integrating Heterogeneous Multimodal Features for Parkinson's Disease Severity Profiling [4.813020904720317]
Class-Weighted Sparse-Attention Fusion Network (SAFN)は、堅牢なマルチモーダルプロファイリングのための解釈可能なディープラーニングフレームワークである。
SAFNは、MRI皮質厚み、MRI体積測定、臨床評価、人口統計学変数を統合している。
精度は0.98プラスまたは0.02、PR-AUCは1.00プラスまたは0.00で、確立された機械学習およびディープラーニングベースラインを上回っている。
論文 参考訳(メタデータ) (2026-01-02T00:51:21Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - EAGLE: Efficient Alignment of Generalized Latent Embeddings for Multimodal Survival Prediction with Interpretable Attribution Analysis [16.567468717846676]
既存のマルチモーダルアプローチは、単純化された融合戦略、膨大な計算要求、および臨床導入における解釈可能性の重要な障壁の欠如に悩まされている。
本稿では,注意に基づくマルチモーダル融合と包括的帰属分析により,これらの制約に対処する新しいディープラーニングフレームワークであるEagleを紹介する。
Eagleは、高度なAI機能と実用的なヘルスケアデプロイメントのギャップを埋め、マルチモーダルサバイバル予測のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-12T03:56:13Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。