論文の概要: Assessing The Potential Of Mid-Sized Language Models For Clinical QA
- arxiv url: http://arxiv.org/abs/2404.15894v1
- Date: Wed, 24 Apr 2024 14:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:01:10.917892
- Title: Assessing The Potential Of Mid-Sized Language Models For Clinical QA
- Title(参考訳): 臨床QAにおける中規模言語モデルの可能性の評価
- Authors: Elliot Bolton, Betty Xiong, Vijaytha Muralidharan, Joel Schamroth, Vivek Muralidharan, Christopher D. Manning, Roxana Daneshjou,
- Abstract要約: GPT-4 や Med-PaLM のような大規模言語モデルは、臨床上のタスクにおいて顕著な性能を示した。
BioGPT-large、BioMedLM、LLaMA 2、Mistral 7Bのような中型モデルはこれらの欠点を避ける。
本研究は,臨床業務におけるオープンソース中規模モデルの初回評価を行う。
- 参考スコア(独自算出の注目度): 24.116649037975762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models, such as GPT-4 and Med-PaLM, have shown impressive performance on clinical tasks; however, they require access to compute, are closed-source, and cannot be deployed on device. Mid-size models such as BioGPT-large, BioMedLM, LLaMA 2, and Mistral 7B avoid these drawbacks, but their capacity for clinical tasks has been understudied. To help assess their potential for clinical use and help researchers decide which model they should use, we compare their performance on two clinical question-answering (QA) tasks: MedQA and consumer query answering. We find that Mistral 7B is the best performing model, winning on all benchmarks and outperforming models trained specifically for the biomedical domain. While Mistral 7B's MedQA score of 63.0% approaches the original Med-PaLM, and it often can produce plausible responses to consumer health queries, room for improvement still exists. This study provides the first head-to-head assessment of open source mid-sized models on clinical tasks.
- Abstract(参考訳): GPT-4 や Med-PaLM のような大規模言語モデルは、臨床上のタスクにおいて顕著なパフォーマンスを示しているが、それらは計算へのアクセスを必要とし、クローズソースであり、デバイスにデプロイすることができない。
BioGPT-large、BioMedLM、LLaMA 2、Mistral 7Bのような中型モデルはこれらの欠点を回避しているが、臨床業務の能力は検討されている。
臨床利用の可能性を評価し,どのモデルを使うべきかを研究者が決定するのを助けるために,臨床質問応答(QA)の2つのタスク,MedQAとコンシューマクエリ応答を比較した。
Mistral 7Bは、すべてのベンチマークで優勝し、バイオメディカルドメイン向けに訓練されたモデルよりも優れています。
Mistral 7B の MedQA スコアは 63.0% で、オリジナルの Med-PaLM に近づき、コンシューマー向けヘルスクエリに対するもっともらしい応答を生成することができるが、改善の余地はまだ残っている。
本研究は,臨床業務におけるオープンソース中規模モデルの初回評価を行う。
関連論文リスト
- Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。
本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文 参考訳(メタデータ) (2024-08-25T13:36:22Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。
微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。
BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文 参考訳(メタデータ) (2024-03-27T10:18:21Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - SM70: A Large Language Model for Medical Devices [0.6906005491572401]
SM70は、SpassMedの医療機器向けに設計された大型言語モデルであり、「JEE1」というブランド名(G1と発音して「ライフ」を意味する)で紹介する。
SM70を微調整するために、公開データセットMedAlpacaから約800Kのデータエントリを使用しました。
MEDQA - USMLE, PUBMEDQA, USMLE の3つのベンチマークデータセットで評価を行った。
論文 参考訳(メタデータ) (2023-12-12T04:25:26Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。