論文の概要: Benchmarking and Adapting On-Device Large Language Models for Clinical Decision Support
- arxiv url: http://arxiv.org/abs/2601.03266v1
- Date: Thu, 18 Dec 2025 22:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.581636
- Title: Benchmarking and Adapting On-Device Large Language Models for Clinical Decision Support
- Title(参考訳): 臨床診断支援のためのオンデバイス大規模言語モデルのベンチマークと適応
- Authors: Alif Munim, Jun Ma, Omar Ibrahim, Alhusain Abdalla, Shuolin Yin, Leo Chen, Bo Wang,
- Abstract要約: 大規模言語モデル(LLM)は、臨床意思決定において急速に進歩している。
しかし、プロプライエタリなシステムのデプロイは、プライバシの懸念とクラウドベースのインフラストラクチャへの依存によって妨げられている。
- 参考スコア(独自算出の注目度): 3.165122193962168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have rapidly advanced in clinical decision-making, yet the deployment of proprietary systems is hindered by privacy concerns and reliance on cloud-based infrastructure. Open-source alternatives allow local inference but often require large model sizes that limit their use in resource-constrained clinical settings. Here, we benchmark two on-device LLMs, gpt-oss-20b and gpt-oss-120b, across three representative clinical tasks: general disease diagnosis, specialty-specific (ophthalmology) diagnosis and management, and simulation of human expert grading and evaluation. We compare their performance with state-of-the-art proprietary models (GPT-5 and o4-mini) and a leading open-source model (DeepSeek-R1), and we further evaluate the adaptability of on-device systems by fine-tuning gpt-oss-20b on general diagnostic data. Across tasks, gpt-oss models achieve performance comparable to or exceeding DeepSeek-R1 and o4-mini despite being substantially smaller. In addition, fine-tuning remarkably improves the diagnostic accuracy of gpt-oss-20b, enabling it to approach the performance of GPT-5. These findings highlight the potential of on-device LLMs to deliver accurate, adaptable, and privacy-preserving clinical decision support, offering a practical pathway for broader integration of LLMs into routine clinical practice.
- Abstract(参考訳): 大きな言語モデル(LLM)は、臨床的な意思決定において急速に進歩しているが、プロプライエタリなシステムのデプロイは、プライバシの懸念とクラウドベースのインフラストラクチャへの依存によって妨げられている。
オープンソースの代替手段は、ローカル推論を許すが、リソース制約のある臨床環境での使用を制限する大きなモデルサイズを必要とすることが多い。
本稿では、一般的な疾患の診断、専門性(眼科)の診断と管理、専門家による評価と評価のシミュレーションの3つの代表的な臨床課題について、オンデバイスLSM(gpt-oss-20bとgpt-oss-120b)をベンチマークする。
我々は、その性能を最先端のプロプライエタリモデル(GPT-5とo4-mini)と主要なオープンソースモデル(DeepSeek-R1)と比較し、一般的な診断データに基づいてgpt-oss-20bを微調整することで、デバイス上のシステムの適用性をさらに評価する。
タスク全体にわたって、gpt-ossモデルは、かなり小さいにもかかわらず、DeepSeek-R1やo4-miniに匹敵するパフォーマンスを達成する。
さらに、微調整によりgpt-oss-20bの診断精度が著しく向上し、GPT-5の性能に近づいた。
これらの知見は, デバイス上でのLCMが, 正確で適応性があり, プライバシに配慮した臨床診断支援を提供する可能性を強調し, 日常的な臨床実践へのLCMのより広範な統合のための実践的経路を提供する。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。
SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。
本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T21:40:21Z) - In-Context Learning for Label-Efficient Cancer Image Classification in Oncology [1.741659712094955]
In-context Learning (ICL) は、ドメイン固有の診断タスクに対するモデル再トレーニングの実用的な代替手段である。
視覚言語モデル(VLM)-Paligemma, CLIP, ALIGN, GPT-4o の評価を行った。
ICLは、サイズが小さいにもかかわらず競争力の向上を示し、計算に制約のある臨床環境への展開の可能性を示した。
論文 参考訳(メタデータ) (2025-05-08T20:49:01Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。