論文の概要: Performance of Large Language Models in Answering Critical Care Medicine Questions
- arxiv url: http://arxiv.org/abs/2509.19344v1
- Date: Tue, 16 Sep 2025 14:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.496516
- Title: Performance of Large Language Models in Answering Critical Care Medicine Questions
- Title(参考訳): 重度医療医療問題に対する大規模言語モデルの性能評価
- Authors: Mahmoud Alwakeel, Aditya Nagori, An-Kwok Ian Wong, Neal Chaisson, Vijay Krishnamoorthy, Rishikesan Kamaleswaran,
- Abstract要約: 大規模言語モデルは、881の救命医療に関する質問で試験された。
Llama3.1:70Bは8Bを30%上回り、平均精度は60%だった。
- 参考スコア(独自算出の注目度): 1.825224193230824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models have been tested on medical student-level questions, but their performance in specialized fields like Critical Care Medicine (CCM) is less explored. This study evaluated Meta-Llama 3.1 models (8B and 70B parameters) on 871 CCM questions. Llama3.1:70B outperformed 8B by 30%, with 60% average accuracy. Performance varied across domains, highest in Research (68.4%) and lowest in Renal (47.9%), highlighting the need for broader future work to improve models across various subspecialty domains.
- Abstract(参考訳): 大規模言語モデルは、医学生レベルでの質問に対してテストされてきたが、CCM(Critical Care Medicine)のような専門分野におけるパフォーマンスは明らかにされていない。
メタラマ3.1モデル(8Bおよび70Bパラメータ)を851のCCM質問に対して評価した。
Llama3.1:70Bは8Bを30%上回り、平均精度は60%だった。
ドメインごとにパフォーマンスが変化し、研究が最高(68.4%)、ルナルが最低(47.9%)となり、様々なサブ分野にわたるモデルを改善するためのより広範な将来の作業の必要性が浮き彫りになった。
関連論文リスト
- Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Agentic large language models improve retrieval-based radiology question answering [4.208637377704778]
本稿では,大規模言語モデル(LLM)を自律的に分解可能なエージェントRAGフレームワークを提案する。
LLMはRadiopaedia.orgから標的臨床証拠を反復的に回収し、証拠に基づく反応を動的に合成する。
エージェント検索により、ゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-08-01T16:18:52Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models [42.13371892174481]
医療用大規模言語モデル(LLM)と視覚言語モデル(VLM)を対応するベースモデルと比較する。
以上の結果から,最先端の汎用ドメインモデルはすでに強力な医学的知識と推論能力を持っている可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-13T18:50:13Z) - Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。
本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文 参考訳(メタデータ) (2024-08-25T13:36:22Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。