論文の概要: Susceptibility of Large Language Models to User-Driven Factors in Medical Queries
- arxiv url: http://arxiv.org/abs/2503.22746v1
- Date: Wed, 26 Mar 2025 23:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.759295
- Title: Susceptibility of Large Language Models to User-Driven Factors in Medical Queries
- Title(参考訳): 医療用問合せにおける大規模言語モデルのユーザ主導的要因に対する受容性
- Authors: Kyung Ho Lim, Ujin Kang, Xiang Li, Jin Sung Kim, Young-Chul Jung, Sangjoon Park, Byung-Hoon Kim,
- Abstract要約: 我々は,誤情報フレーミング,情報源権限,モデルペルソナ,重要な臨床詳細の欠落が,大規模言語モデル(LLM)の診断精度と信頼性に与える影響について検討した。
我々は,プロプライエタリモデル (GPT-4o, Claude 3.5 Sonnet, Claude 3.5 Haiku, Gemini 1.5 Pro, Gemini 1.5 Flash) とオープンソースモデル (LLaMA 3 8B, LLaMA 3 Med42 8B, DeepSeek R1 8B) を評価した。
全てのモデルはユーザ主導の誤情報に対して脆弱であり、プロプライエタリなモデルは特に決定的かつ権威的な言語の影響を受けていた。
- 参考スコア(独自算出の注目度): 10.914166466391952
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used in healthcare, but their reliability is heavily influenced by user-driven factors such as question phrasing and the completeness of clinical information. In this study, we examined how misinformation framing, source authority, model persona, and omission of key clinical details affect the diagnostic accuracy and reliability of LLM outputs. We conducted two experiments: one introducing misleading external opinions with varying assertiveness (perturbation test), and another removing specific categories of patient information (ablation test). Using public datasets (MedQA and Medbullets), we evaluated proprietary models (GPT-4o, Claude 3.5 Sonnet, Claude 3.5 Haiku, Gemini 1.5 Pro, Gemini 1.5 Flash) and open-source models (LLaMA 3 8B, LLaMA 3 Med42 8B, DeepSeek R1 8B). All models were vulnerable to user-driven misinformation, with proprietary models especially affected by definitive and authoritative language. Assertive tone had the greatest negative impact on accuracy. In the ablation test, omitting physical exam findings and lab results caused the most significant performance drop. Although proprietary models had higher baseline accuracy, their performance declined sharply under misinformation. These results highlight the need for well-structured prompts and complete clinical context. Users should avoid authoritative framing of misinformation and provide full clinical details, especially for complex cases.
- Abstract(参考訳): 大規模言語モデル (LLM) は医療においてますます使われてきているが、その信頼性は質問文や臨床情報の完全性といったユーザ主導の要因に大きく影響されている。
本研究では,誤情報フレーミング,ソース権限,モデルペルソナ,重要な臨床詳細の欠落がLCM出力の診断精度と信頼性に与える影響について検討した。
2つの実験を行った。1つは、異なる主張性(摂動テスト)で誤解を招く外部意見を導入すること、もう1つは、特定の患者情報(アブレーションテスト)を除去することである。
パブリックデータセット(MedQAとMedbullets)を使用して、プロプライエタリモデル(GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro、Gemini 1.5 Flash)とオープンソースモデル(LLaMA 3 8B、LLaMA 3 Med42 8B、DeepSeek R1 8B)を評価しました。
全てのモデルはユーザ主導の誤情報に対して脆弱であり、プロプライエタリなモデルは特に決定的かつ権威的な言語の影響を受けていた。
挿入音は精度に最も悪影響を及ぼした。
アブレーション試験では, 身体検査所見と検査結果の省略が, 最も顕著な成績低下を招いた。
プロプライエタリなモデルはベースライン精度が高かったが、その性能は誤報により急激に低下した。
これらの結果は、十分に構造化されたプロンプトと完全な臨床コンテキストの必要性を強調している。
ユーザーは誤報の権威的フレーミングを回避し、特に複雑な症例に対して完全な臨床情報を提供すべきである。
関連論文リスト
- Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。
我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。
モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文 参考訳(メタデータ) (2025-02-07T10:01:32Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - Generalist embedding models are better at short-context clinical
semantic search than specialized embedding models [0.9296448006507203]
ICD-10-CMのコード記述と容易に再現可能な言い換えに基づくデータセットを構築する。
セマンティックサーチタスクにおいて、ジェネラリストまたは臨床領域専門の既存の埋め込みモデルをベンチマークした。
その結果、ジェネラリストモデルは臨床モデルよりも優れており、既存の臨床特化モデルは、それらを混乱させる入力の小さな変化に対してより敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-01-03T19:03:32Z) - Only Positive Cases: 5-fold High-order Attention Interaction Model for
Skin Segmentation Derived Classification [2.2455719925407207]
本稿では,高説明力を有する皮膚病変分割作業において,複数の高次注意相互作用モデル(MHA-UNet)を提案する。
MHA-UNetは、陰性サンプルのトレーニングを必要とせず、説明可能な推論によって病変の有無を得ることができる。
論文 参考訳(メタデータ) (2023-11-27T08:44:00Z) - How Does Pruning Impact Long-Tailed Multi-Label Medical Image
Classifiers? [49.35105290167996]
プルーニングは、ディープニューラルネットワークを圧縮し、全体的なパフォーマンスに大きな影響を及ぼすことなく、メモリ使用量と推論時間を短縮する強力なテクニックとして登場した。
この研究は、プルーニングがモデル行動に与える影響を理解するための第一歩である。
論文 参考訳(メタデータ) (2023-08-17T20:40:30Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - Negation detection in Dutch clinical texts: an evaluation of rule-based
and machine learning methods [0.21079694661943607]
オランダ臨床ノートにおける否定検出の3つの方法の比較を行った。
その結果,biLSTMモデルとRoBERTaモデルはF1スコア,精度,リコールという点で,ルールベースモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-09-01T14:00:13Z) - What Do You See in this Patient? Behavioral Testing of Clinical NLP
Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。
私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文 参考訳(メタデータ) (2021-11-30T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。