論文の概要: DeVisE: Behavioral Testing of Medical Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15339v1
- Date: Wed, 18 Jun 2025 10:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.631135
- Title: DeVisE: Behavioral Testing of Medical Large Language Models
- Title(参考訳): DeVisE: 医療用大言語モデルの行動検査
- Authors: Camila Zurdo Tagliabue, Heloisa Oss Boll, Aykut Erdem, Erkut Erdem, Iacer Calixto,
- Abstract要約: DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築した。
汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
- 参考スコア(独自算出の注目度): 14.832083455439749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in clinical decision support, yet current evaluation methods often fail to distinguish genuine medical reasoning from superficial patterns. We introduce DeVisE (Demographics and Vital signs Evaluation), a behavioral testing framework for probing fine-grained clinical understanding. We construct a dataset of ICU discharge notes from MIMIC-IV, generating both raw (real-world) and template-based (synthetic) versions with controlled single-variable counterfactuals targeting demographic (age, gender, ethnicity) and vital sign attributes. We evaluate five LLMs spanning general-purpose and medically fine-tuned variants, under both zero-shot and fine-tuned settings. We assess model behavior via (1) input-level sensitivity - how counterfactuals alter the likelihood of a note; and (2) downstream reasoning - how they affect predicted hospital length-of-stay. Our results show that zero-shot models exhibit more coherent counterfactual reasoning patterns, while fine-tuned models tend to be more stable yet less responsive to clinically meaningful changes. Notably, demographic factors subtly but consistently influence outputs, emphasizing the importance of fairness-aware evaluation. This work highlights the utility of behavioral testing in exposing the reasoning strategies of clinical LLMs and informing the design of safer, more transparent medical AI systems.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 臨床診断支援にますます用いられているが, 現在の評価手法では, 表面パターンと真正の医学的推論を区別することができないことが多い。
DeVisE (Demographics and Vital sign Evaluation) は,詳細な臨床的理解を得るための行動検査フレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築し、人口統計学的(年齢、性別、民族性)とバイタルサイン属性をターゲットとした、生(実世界)とテンプレート(合成)の両バージョンを生成する。
汎用および医療用微調整の5つのLSMを,ゼロショットと微調整の両方で評価した。
本研究では,(1)入力レベルの感度によるモデル行動の評価,(2)音符の確率の変化,(2)下流の推論による予測病院長の予測への影響について検討した。
以上の結果から,ゼロショットモデルはよりコヒーレントな反事実的推論パターンを示す一方,微調整モデルはより安定であり,臨床的に有意な変化に対する応答性が低い傾向が示唆された。
特に、人口統計学的要因は微妙だが一貫してアウトプットに影響を及ぼし、公平さを意識した評価の重要性を強調した。
この研究は、臨床用LLMの推論戦略を公開し、より安全で透明性の高い医療AIシステムの設計を通知する行動検査の有用性を強調している。
関連論文リスト
- SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - Bias patterns in the application of LLMs for clinical decision support: A comprehensive study [2.089191490381739]
大きな言語モデル (LLMs) は、臨床意思決定プロセスを伝える強力な候補として登場した。
これらのモデルは、デジタルランドスケープを形成する上で、ますます顕著な役割を担っている。
1) LLM は、患者の保護された属性(人種など)に基づいて、どの程度の社会的バイアスを示すのか、2) 設計選択(アーキテクチャ設計や戦略の推進など)は、観察されたバイアスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-04-23T15:52:52Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - What Do You See in this Patient? Behavioral Testing of Clinical NLP
Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。
私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文 参考訳(メタデータ) (2021-11-30T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。