Fugu-MT 論文翻訳(概要): Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

論文の概要: Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

arxiv url: http://arxiv.org/abs/2605.30646v1
Date: Thu, 28 May 2026 23:03:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-01 20:56:50.281069
Title: Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs
Title（参考訳）: 同一症例, 異語, 診断の相違 : 臨床 LLM のセマンティック安定性の評価
Authors: Mahdi Alkaeed, Adnan Qayyum, Nabeel Abo Kashreef, Muhammad Bilal, Junaid Qadir,
Abstract要約: モデル感度を定量化するための指標として,MVS(Meaning Preserving Variation Sensitivity),信頼度変動(C),Worst-Case Instability(WCI)の3つを紹介した。以上の結果から,ドメイン固有モデルの違いは混在しており,モデル依存度が高いことが示唆された。
参考スコア（独自算出の注目度）: 5.580559622582594
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used in clinical applications. However, their behavior remains highly sensitive to subtle linguistic variations, such as rephrasing or syntactic variation. This sensitivity poses risks in safety-critical healthcare settings, where semantically equivalent inputs should produce consistent predictions. However, a key challenge is to ensure that prompt variations truly preserve clinical meaning, as embedding-based similarity metrics often fail to capture distinctions involving negation, temporality, or severity. To address this limitation, we propose a semantic verification framework based on Natural Language Inference (NLI) to filter meaning-preserving prompt variations, which are further refined using an LLM-as-a-judge and audited by a clinical expert. In addition, we introduce three metrics to quantify model sensitivity: MeaningPreserving Variation Sensitivity (MVS), confidence variation (ΔC), and Worst-Case Instability (WCI). We evaluate 16 open-source general-purpose (GP) and medical LLMs within the same model families and parameter scales, using reformulated prompts derived from the DiagnosisQA and MedQA datasets. Our results demonstrate that robustness differences between domain-specific (DS) models are mixed and highly model-dependent, i.e., domain specialization does not consistently improve or reduce robustness to meaning-preserving prompt reformulations. Several DS models rank among the most robust (when compared with GP counterparts), and strong GP baselines remain competitive as well.
Abstract（参考訳）: 大規模言語モデル(LLM)は、臨床応用においてますます使われている。しかし、それらの行動は、言い換えや構文変化のような微妙な言語的変化に非常に敏感なままである。この感度は、セマンティックに等価な入力が一貫した予測を生成するべき安全クリティカルな医療設定においてリスクを引き起こす。しかし、重要な課題は、しばしば埋め込みベースの類似度指標が否定、時間的、重大さを含む区別を捉えるのに失敗するため、即時的な変化が臨床的意味を真に保存することを保証することである。この制限に対処するため,本研究では,LLM-as-a-judgeを用いてさらに洗練され,臨床専門家によって監査される,意味保存の即時変化をフィルタリングする自然言語推論(NLI)に基づく意味検証フレームワークを提案する。さらに、モデル感度を定量化する指標として、MVS(Meaning Preserving Variation Sensitivity)、ΔC(Resistence Variation)、Worst-Case Instability(WCI)の3つを紹介した。我々は、診断QAデータセットとMedQAデータセットから得られた修正プロンプトを用いて、同じモデルファミリーとパラメータスケール内の16のオープンソース汎用(GP)および医療用LLMを評価した。以上の結果から,ドメイン固有モデル間のロバスト性の違いは混在し,モデル依存度が高いことが示唆された。いくつかのDSモデルは(GPと比較して)最も堅牢なモデルの中でランク付けされ、強力なGPベースラインも競争力を維持している。

関連論文リスト

Artificial Intolerance: Stigmatizing Language in Clinical Documentation Skews Large Language Model Decision-Making [13.79732306725696]
大規模言語モデル(LLM)は、臨床上の意思決定支援や医療ドキュメントなど、高度な領域にますます展開されている。臨床テキストの処理において、フロンティアLSMが人間のバイアスを継承し、伝播するかどうかを検討する。
論文参考訳（メタデータ） (2026-05-17T02:28:25Z)
Green Shielding: A User-Centric Approach Towards Trustworthy AI [19.485991712624095]
Green Shieldingはエビデンスベースのデプロイメントガイダンスを構築するための,ユーザ中心のアジェンダだ。 HealthCareMagic-Diagnosis による医療診断における Green Shielding のインスタンス化ここでは医療診断においてインスタンス化されているが、アジェンダは他の意思決定支援設定やエージェントAIシステムに自然に拡張されている。
論文参考訳（メタデータ） (2026-04-27T17:04:17Z)
Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering [58.85421622061983]
認知障害患者の微粒化シミュレーションのためのStsPatientを提案する。対照的な命令と応答のペアからステアリングベクトルを抽出することにより、ドメイン固有の特徴を捉える。 StsPatientは、臨床の信頼性と重症度の両方において、ベースラインを著しく上回る。
論文参考訳（メタデータ） (2026-04-14T02:37:46Z)
Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文参考訳（メタデータ） (2026-01-11T02:20:40Z)
Mapping Clinical Doubt: Locating Linguistic Uncertainty in LLMs [4.360255198498071]
本研究は,医学テキストにおける言語的不確実性に対する入力側表現感度について検討する。不確実性に対するモデル感度(MSU)は,不確実性によって誘導されるアクティベーションレベルシフトを階層的に推定する指標である。
論文参考訳（メタデータ） (2025-11-27T12:26:06Z)
Efficient semantic uncertainty quantification in language models via diversity-steered sampling [46.23327887393273]
本稿では,デコード中に意味的に冗長な出力を回避できるダイバーシティステアリング・サンプリング手法を提案する。主要なアイデアは、モデルの提案分布に連続的な意味-類似性ペナルティを注入することである。モジュラーであり、ベースLSMへの勾配アクセスを必要としないため、このフレームワークは不確実性評価のためのドロップインエンハンスメントとして機能することを約束している。
論文参考訳（メタデータ） (2025-10-24T10:06:21Z)
Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-07-27T16:48:53Z)
When Meaning Stays the Same, but Models Drift: Evaluating Quality of Service under Token-Level Behavioral Instability in LLMs [4.265831047857601]
本研究では,大規模言語モデルがトークンレベルでの認識のみが異なるが,同じ意味的意図を保持するプロンプトにどのように反応するかを検討する。本稿では,意味論的に等価なプロンプトリワードの下でのLCMの挙動ドリフトを測定するための診断フレームワークであるPmpt-based Semantic Shift (PBSS)を提案する。
論文参考訳（メタデータ） (2025-06-11T18:26:32Z)
Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文参考訳（メタデータ） (2024-05-30T12:42:05Z)
Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文参考訳（メタデータ） (2023-01-01T05:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。