論文の概要: Small Language Models for Emergency Departments Decision Support: A Benchmark Study
- arxiv url: http://arxiv.org/abs/2510.04032v1
- Date: Sun, 05 Oct 2025 04:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.411387
- Title: Small Language Models for Emergency Departments Decision Support: A Benchmark Study
- Title(参考訳): 救急部門意思決定支援のための小言語モデル:ベンチマーク研究
- Authors: Zirui Wang, Jiajun Wu, Braden Teitge, Jessalyn Holodinsky, Steve Drew,
- Abstract要約: 大規模言語モデル(LLM)は、医師が様々な臨床および手術業務を行うのを助けるために、医学領域でますます人気が高まっている。
小型言語モデル(SLM)は、その固有の推論能力と効率的な性能から、大きな可能性を秘めている。
これにより、SLMは、タイムリーかつ正確な情報合成を提供することで、医師を支援することができ、臨床意思決定とワークフロー効率を向上させることができる。
- 参考スコア(独自算出の注目度): 26.333059604118414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become increasingly popular in medical domains to assist physicians with a variety of clinical and operational tasks. Given the fast-paced and high-stakes environment of emergency departments (EDs), small language models (SLMs), characterized by a reduction in parameter count compared to LLMs, offer significant potential due to their inherent reasoning capability and efficient performance. This enables SLMs to support physicians by providing timely and accurate information synthesis, thereby improving clinical decision-making and workflow efficiency. In this paper, we present a comprehensive benchmark designed to identify SLMs suited for ED decision support, taking into account both specialized medical expertise and broad general problem-solving capabilities. In our evaluations, we focus on SLMs that have been trained on a mixture of general-domain and medical corpora. A key motivation for emphasizing SLMs is the practical hardware limitations, operational cost constraints, and privacy concerns in the typical real-world deployments. Our benchmark datasets include MedMCQA, MedQA-4Options, and PubMedQA, with the medical abstracts dataset emulating tasks aligned with real ED physicians' daily tasks. Experimental results reveal that general-domain SLMs surprisingly outperform their medically fine-tuned counterparts across these diverse benchmarks for ED. This indicates that for ED, specialized medical fine-tuning of the model may not be required.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医師が様々な臨床および手術業務を行うのを助けるために、医学領域でますます人気が高まっている。
緊急部署(EDs)の迅速かつ高精度な環境を考えると、小言語モデル(SLMs)は、LPMsと比較してパラメータ数が減少していることが特徴であり、その固有の推論能力と効率的な性能から有意義な可能性を秘めている。
これにより、SLMは、タイムリーかつ正確な情報合成を提供することで、医師を支援することができ、臨床意思決定とワークフロー効率を向上させることができる。
本稿では,ED意思決定支援に適したSLMを同定し,専門的な専門知識と幅広い問題解決能力の両方を考慮した総合的ベンチマークを提案する。
本評価では,一般ドメインと医療コーパスを混合したSLMに焦点を当てた。
SLMを強調する主な動機は、実際のハードウェアの制限、運用コストの制約、および一般的な現実世界のデプロイメントにおけるプライバシに関する懸念である。
私たちのベンチマークデータセットには、MedMCQA、MedQA-4Options、PubMedQAがあり、実際のED医師の日々のタスクに合わせたタスクをエミュレートする医療抽象データセットがあります。
実験結果から、一般ドメインのSLMは、これらの多種多様なベンチマークにおいて、医学的に微調整されたSLMよりも驚くほど優れていたことが判明した。
これは、EDの場合、このモデルの専門的な医学的微調整は不要であることを示している。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - Performance of Large Language Models in Supporting Medical Diagnosis and Treatment [0.0]
AI駆動システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の結果を予測するのを支援する。
本研究は,2024年のポルトガル国立試験場において,オープンソースモデルとクローズドソースモデルの両方を含む,現代LLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-04-14T16:53:59Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。