論文の概要: Medical large language models are easily distracted
- arxiv url: http://arxiv.org/abs/2504.01201v1
- Date: Tue, 01 Apr 2025 21:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:16.374298
- Title: Medical large language models are easily distracted
- Title(参考訳): 医療用大言語モデルは容易に気を散らす
- Authors: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann,
- Abstract要約: 大規模言語モデル(LLM)は医学を変革する可能性を持っているが、実際の臨床シナリオには、パフォーマンスを妨げる余分な情報が含まれている。
MedDistractQAは,実世界の気晴らしをシミュレートしたUSMLEスタイルの質問を用いたベンチマークである。
- 参考スコア(独自算出の注目度): 0.8211696054238238
- License:
- Abstract: Large language models (LLMs) have the potential to transform medicine, but real-world clinical scenarios contain extraneous information that can hinder performance. The rise of assistive technologies like ambient dictation, which automatically generates draft notes from live patient encounters, has the potential to introduce additional noise making it crucial to assess the ability of LLM's to filter relevant data. To investigate this, we developed MedDistractQA, a benchmark using USMLE-style questions embedded with simulated real-world distractions. Our findings show that distracting statements (polysemous words with clinical meanings used in a non-clinical context or references to unrelated health conditions) can reduce LLM accuracy by up to 17.9%. Commonly proposed solutions to improve model performance such as retrieval-augmented generation (RAG) and medical fine-tuning did not change this effect and in some cases introduced their own confounders and further degraded performance. Our findings suggest that LLMs natively lack the logical mechanisms necessary to distinguish relevant from irrelevant clinical information, posing challenges for real-world applications. MedDistractQA and our results highlights the need for robust mitigation strategies to enhance LLM resilience to extraneous information.
- Abstract(参考訳): 大規模言語モデル(LLM)は医学を変革する可能性を秘めているが、実際の臨床シナリオには、パフォーマンスを妨げる余分な情報が含まれている。
生活中の患者からノートを自動生成する環境宣言のような補助技術の台頭は、LLMが関連するデータをフィルタリングする能力を評価するために、付加的なノイズを導入する可能性がある。
そこで本研究では,実世界の気晴らしを模擬したUSMLEスタイル質問を用いたベンチマークであるMedDistractQAを開発した。
本研究は, 注意喚起文(臨床的意味を持つ多義語, 非臨床的文脈や無関係な健康状態への言及)は, LLMの精度を最大17.9%低下させる可能性が示唆された。
検索強化世代(RAG)や医療ファインチューニングなどのモデル性能を改善するための一般的なソリューションは、この効果を変えず、場合によっては、自身の共同設立者を導入し、さらなる性能低下を図った。
以上の結果から,LLMには関連性のない臨床情報と区別するために必要な論理的メカニズムが欠如していることが示唆された。
MedDistractQAとその成果は,LLMの弾力性を高めるための堅牢な緩和戦略の必要性を浮き彫りにした。
関連論文リスト
- Medicine on the Edge: Comparative Performance Analysis of On-Device LLMs for Clinical Reasoning [1.6010529993238123]
AMEGAデータセットを用いて,デバイス上で利用可能な大規模言語モデル(LLM)をベンチマークする。
以上の結果から,Phi-3 Miniのような小型汎用モデルでは,速度と精度のバランスが強いことが示唆された。
我々は、より効率的な推論と実際の臨床推論に適したモデルの必要性を強調した。
論文 参考訳(メタデータ) (2025-02-13T04:35:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Evaluating the Performance of Large Language Models in Scientific Claim Detection and Classification [0.0]
本研究では,Twitterのようなプラットフォーム上での誤情報を緩和する革新的な手法として,LLM(Large Language Models)の有効性を評価する。
LLMは、従来の機械学習モデルに関連する広範なトレーニングと過度に適合する問題を回避し、事前訓練された適応可能なアプローチを提供する。
特定データセットを用いたLCMの性能の比較分析を行い、公衆衛生コミュニケーションへの応用のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T05:02:26Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。
Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。