論文の概要: DeVisE: Behavioral Testing of Medical Large Language Models
- arxiv url: http://arxiv.org/abs/2506.15339v1
- Date: Wed, 18 Jun 2025 10:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.631135
- Title: DeVisE: Behavioral Testing of Medical Large Language Models
- Title(参考訳): DeVisE: 医療用大言語モデルの行動検査
- Authors: Camila Zurdo Tagliabue, Heloisa Oss Boll, Aykut Erdem, Erkut Erdem, Iacer Calixto,
- Abstract要約: DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築した。
汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
- 参考スコア(独自算出の注目度): 14.832083455439749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in clinical decision support, yet current evaluation methods often fail to distinguish genuine medical reasoning from superficial patterns. We introduce DeVisE (Demographics and Vital signs Evaluation), a behavioral testing framework for probing fine-grained clinical understanding. We construct a dataset of ICU discharge notes from MIMIC-IV, generating both raw (real-world) and template-based (synthetic) versions with controlled single-variable counterfactuals targeting demographic (age, gender, ethnicity) and vital sign attributes. We evaluate five LLMs spanning general-purpose and medically fine-tuned variants, under both zero-shot and fine-tuned settings. We assess model behavior via (1) input-level sensitivity - how counterfactuals alter the likelihood of a note; and (2) downstream reasoning - how they affect predicted hospital length-of-stay. Our results show that zero-shot models exhibit more coherent counterfactual reasoning patterns, while fine-tuned models tend to be more stable yet less responsive to clinically meaningful changes. Notably, demographic factors subtly but consistently influence outputs, emphasizing the importance of fairness-aware evaluation. This work highlights the utility of behavioral testing in exposing the reasoning strategies of clinical LLMs and informing the design of safer, more transparent medical AI systems.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 臨床診断支援にますます用いられているが, 現在の評価手法では, 表面パターンと真正の医学的推論を区別することができないことが多い。
DeVisE (Demographics and Vital sign Evaluation) は,詳細な臨床的理解を得るための行動検査フレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築し、人口統計学的(年齢、性別、民族性)とバイタルサイン属性をターゲットとした、生(実世界)とテンプレート(合成)の両バージョンを生成する。
汎用および医療用微調整の5つのLSMを,ゼロショットと微調整の両方で評価した。
本研究では,(1)入力レベルの感度によるモデル行動の評価,(2)音符の確率の変化,(2)下流の推論による予測病院長の予測への影響について検討した。
以上の結果から,ゼロショットモデルはよりコヒーレントな反事実的推論パターンを示す一方,微調整モデルはより安定であり,臨床的に有意な変化に対する応答性が低い傾向が示唆された。
特に、人口統計学的要因は微妙だが一貫してアウトプットに影響を及ぼし、公平さを意識した評価の重要性を強調した。
この研究は、臨床用LLMの推論戦略を公開し、より安全で透明性の高い医療AIシステムの設計を通知する行動検査の有用性を強調している。
関連論文リスト
- PiCME: Pipeline for Contrastive Modality Evaluation and Encoding in the MIMIC Dataset [16.263862005367667]
マルチモーダル深層学習は、多様な患者データを統合することで臨床予測を改善することを約束する。
対照的な学習は、タスク間で再利用可能な統一表現を生成することによって、この統合を促進する。
PiCMEはMIMICのすべてのモダリティの組み合わせでコントラスト学習をスケールした最初の企業である。
論文 参考訳(メタデータ) (2025-07-03T20:45:37Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - Bias patterns in the application of LLMs for clinical decision support: A comprehensive study [2.089191490381739]
大きな言語モデル (LLMs) は、臨床意思決定プロセスを伝える強力な候補として登場した。
これらのモデルは、デジタルランドスケープを形成する上で、ますます顕著な役割を担っている。
1) LLM は、患者の保護された属性(人種など)に基づいて、どの程度の社会的バイアスを示すのか、2) 設計選択(アーキテクチャ設計や戦略の推進など)は、観察されたバイアスにどのように影響するのか?
論文 参考訳(メタデータ) (2024-04-23T15:52:52Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - What Do You See in this Patient? Behavioral Testing of Clinical NLP
Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。
私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文 参考訳(メタデータ) (2021-11-30T15:52:04Z) - EventScore: An Automated Real-time Early Warning Score for Clinical
Events [3.3039612529376625]
臨床劣化を示す各種臨床事象の早期予測のための解釈可能なモデルを構築した。
このモデルは2つのデータセットと4つの臨床イベントで評価される。
私達のモデルは手動で記録された特徴を要求しないで完全に自動化することができます。
論文 参考訳(メタデータ) (2021-02-11T11:55:08Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。