論文の概要: The MedPerturb Dataset: What Non-Content Perturbations Reveal About Human and Clinical LLM Decision Making
- arxiv url: http://arxiv.org/abs/2506.17163v1
- Date: Fri, 20 Jun 2025 17:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.560614
- Title: The MedPerturb Dataset: What Non-Content Perturbations Reveal About Human and Clinical LLM Decision Making
- Title(参考訳): MedPerturbのデータ:人間と臨床LLMの意思決定に関する非コンテンツ摂動
- Authors: Abinitha Gourabathina, Yuexing Hao, Walter Gerych, Marzyeh Ghassemi,
- Abstract要約: 臨床入力の制御摂動下での医療用大言語モデル(LLM)の評価を目的としたデータセットであるMedPerturbを紹介する。
MedPerturbでは、リアルな入力の可変性に基づく800の臨床的コンテキストのデータセットをリリースする。
我々は、MedPerturbを2つのケーススタディに用いて、ジェンダーアイデンティティの手がかり、言語スタイル、フォーマットの変化が、人間とLLM間の治療選択のばらつきを反映しているかを明らかにする。
- 参考スコア(独自算出の注目度): 13.734312822024947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical robustness is critical to the safe deployment of medical Large Language Models (LLMs), but key questions remain about how LLMs and humans may differ in response to the real-world variability typified by clinical settings. To address this, we introduce MedPerturb, a dataset designed to systematically evaluate medical LLMs under controlled perturbations of clinical input. MedPerturb consists of clinical vignettes spanning a range of pathologies, each transformed along three axes: (1) gender modifications (e.g., gender-swapping or gender-removal); (2) style variation (e.g., uncertain phrasing or colloquial tone); and (3) format changes (e.g., LLM-generated multi-turn conversations or summaries). With MedPerturb, we release a dataset of 800 clinical contexts grounded in realistic input variability, outputs from four LLMs, and three human expert reads per clinical context. We use MedPerturb in two case studies to reveal how shifts in gender identity cues, language style, or format reflect diverging treatment selections between humans and LLMs. We find that LLMs are more sensitive to gender and style perturbations while human annotators are more sensitive to LLM-generated format perturbations such as clinical summaries. Our results highlight the need for evaluation frameworks that go beyond static benchmarks to assess the similarity between human clinician and LLM decisions under the variability characteristic of clinical settings.
- Abstract(参考訳): 臨床の堅牢性は医療用大規模言語モデル(LLM)の安全な展開に不可欠であるが、臨床環境に代表される現実世界の変動に対して、LLMと人間がどのように異なるかという点で重要な疑問が残る。
この問題を解決するために,臨床入力の制御摂動下で医療用LLMを体系的に評価するデータセットであるMedPerturbを紹介する。
MedPerturbは3つの軸に沿って変化した臨床ヴィグネットで構成されており、(1)性変化(例:性転換、性退行)、(2)スタイルの変化(例:不確実なフレーズや口語調)、(3)フォーマットの変化(例: LLM生成のマルチターン会話や要約)である。
MedPerturbでは,現実的な入力変数に基づく800の臨床的コンテキスト,4つのLSMからの出力,臨床コンテキスト毎に3人の専門家による読み取りのデータセットをリリースする。
我々は、MedPerturbを2つのケーススタディに用いて、ジェンダーアイデンティティの手がかり、言語スタイル、フォーマットの変化が、人間とLLM間の治療選択のばらつきを反映しているかを明らかにする。
LLMは性別やスタイルの摂動に敏感であるのに対し、ヒトのアノテータは、臨床要約などのLLM生成フォーマット摂動に敏感である。
本研究は,ヒト臨床医とLSM判定の類似性を評価するための静的ベンチマークを超越した評価フレームワークの必要性を強調した。
関連論文リスト
- Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task [0.0]
大きな言語モデル(LLM)は、認知タスクにおける人間の参加者の代用として、ますます研究されている。
本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-22T03:08:27Z) - Investigating LLMs in Clinical Triage: Promising Capabilities, Persistent Intersectional Biases [6.135648377533492]
大規模言語モデル (LLM) は, 臨床診断支援において有望であるが, トライアージへの応用は未定である。
救急部門トリアージにおけるLCMの能力について,2つの重要な側面を通して体系的に検討した。
我々は、継続した事前学習からテキスト内学習、機械学習アプローチまで、複数のLCMベースのアプローチを評価した。
論文 参考訳(メタデータ) (2025-04-22T21:11:47Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? [2.7476176772825904]
本研究では,大規模言語モデル(LLM)におけるバイアスの評価と緩和について検討する。
本稿では,JAMAクリニカルチャレンジから得られた新しいCPVデータセットについて紹介する。
このデータセットを用いて、複数の選択質問(MCQ)とそれに対応する説明を併用し、バイアス評価のためのフレームワークを構築した。
論文 参考訳(メタデータ) (2024-10-21T23:14:10Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。