Fugu-MT 論文翻訳(概要): Assessing The Potential Of Mid-Sized Language Models For Clinical QA

論文の概要: Assessing The Potential Of Mid-Sized Language Models For Clinical QA

arxiv url: http://arxiv.org/abs/2404.15894v1
Date: Wed, 24 Apr 2024 14:32:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:01:10.917892
Title: Assessing The Potential Of Mid-Sized Language Models For Clinical QA
Title（参考訳）: 臨床QAにおける中規模言語モデルの可能性の評価
Authors: Elliot Bolton, Betty Xiong, Vijaytha Muralidharan, Joel Schamroth, Vivek Muralidharan, Christopher D. Manning, Roxana Daneshjou,
Abstract要約: GPT-4 や Med-PaLM のような大規模言語モデルは、臨床上のタスクにおいて顕著な性能を示した。 BioGPT-large、BioMedLM、LLaMA 2、Mistral 7Bのような中型モデルはこれらの欠点を避ける。本研究は,臨床業務におけるオープンソース中規模モデルの初回評価を行う。
参考スコア（独自算出の注目度）: 24.116649037975762
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models, such as GPT-4 and Med-PaLM, have shown impressive performance on clinical tasks; however, they require access to compute, are closed-source, and cannot be deployed on device. Mid-size models such as BioGPT-large, BioMedLM, LLaMA 2, and Mistral 7B avoid these drawbacks, but their capacity for clinical tasks has been understudied. To help assess their potential for clinical use and help researchers decide which model they should use, we compare their performance on two clinical question-answering (QA) tasks: MedQA and consumer query answering. We find that Mistral 7B is the best performing model, winning on all benchmarks and outperforming models trained specifically for the biomedical domain. While Mistral 7B's MedQA score of 63.0% approaches the original Med-PaLM, and it often can produce plausible responses to consumer health queries, room for improvement still exists. This study provides the first head-to-head assessment of open source mid-sized models on clinical tasks.
Abstract（参考訳）: GPT-4 や Med-PaLM のような大規模言語モデルは、臨床上のタスクにおいて顕著なパフォーマンスを示しているが、それらは計算へのアクセスを必要とし、クローズソースであり、デバイスにデプロイすることができない。 BioGPT-large、BioMedLM、LLaMA 2、Mistral 7Bのような中型モデルはこれらの欠点を回避しているが、臨床業務の能力は検討されている。臨床利用の可能性を評価し,どのモデルを使うべきかを研究者が決定するのを助けるために,臨床質問応答(QA)の2つのタスク,MedQAとコンシューマクエリ応答を比較した。 Mistral 7Bは、すべてのベンチマークで優勝し、バイオメディカルドメイン向けに訓練されたモデルよりも優れています。 Mistral 7B の MedQA スコアは 63.0% で、オリジナルの Med-PaLM に近づき、コンシューマー向けヘルスクエリに対するもっともらしい応答を生成することができるが、改善の余地はまだ残っている。本研究は,臨床業務におけるオープンソース中規模モデルの初回評価を行う。

関連論文リスト

Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [21.831262938278915]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。 Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文参考訳（メタデータ） (2025-06-13T05:36:30Z)
AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。 AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文参考訳（メタデータ） (2025-05-17T07:44:54Z)
A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。 SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T21:40:21Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
An Empirical Evaluation of Large Language Models on Consumer Health Questions [0.30723404270319693]
本研究は,MedRedQAにおけるいくつかの大規模言語モデル(LLM)の性能評価である。 GPT-4o miniは5つのモデルの審査員のうち4人に応じて専門家の反応に最も適しており、Mistral-7Bは5つのモデルの審査員のうち3人から最も低いスコアを得た。
論文参考訳（メタデータ） (2024-12-31T01:08:15Z)
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文参考訳（メタデータ） (2024-08-25T13:36:22Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文参考訳（メタデータ） (2024-04-29T04:11:28Z)
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。 Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文参考訳（メタデータ） (2024-03-30T14:09:00Z)
BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。 BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文参考訳（メタデータ） (2024-03-27T10:18:21Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
SM70: A Large Language Model for Medical Devices [0.6906005491572401]
SM70は、SpassMedの医療機器向けに設計された大型言語モデルであり、「JEE1」というブランド名(G1と発音して「ライフ」を意味する)で紹介する。 SM70を微調整するために、公開データセットMedAlpacaから約800Kのデータエントリを使用しました。 MEDQA - USMLE, PUBMEDQA, USMLE の3つのベンチマークデータセットで評価を行った。
論文参考訳（メタデータ） (2023-12-12T04:25:26Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。