論文の概要: Towards Expert-Level Medical Question Answering with Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.09617v1
- Date: Tue, 16 May 2023 17:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:51:53.075691
- Title: Towards Expert-Level Medical Question Answering with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いた専門医レベルの質問応答
- Authors: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le
Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike
Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant
Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev,
Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral,
Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan
Karthikesalingam, Vivek Natarajan
- Abstract要約: 大規模言語モデル (LLMs) は医学的質問応答において大きな進歩をもたらした。
ここでは、基礎改善(PaLM2)、医療領域の細かな改善、戦略の推進を組み合わせ、ギャップを埋めるMedPaLM 2を提案する。
また, MedMC-ofQA, PubMed, MMLUの臨床トピックスデータセットに近づいたり, 最先端に近づいたりした。
- 参考スコア(独自算出の注目度): 16.882775912583355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent artificial intelligence (AI) systems have reached milestones in "grand
challenges" ranging from Go to protein-folding. The capability to retrieve
medical knowledge, reason over it, and answer medical questions comparably to
physicians has long been viewed as one such grand challenge.
Large language models (LLMs) have catalyzed significant progress in medical
question answering; Med-PaLM was the first model to exceed a "passing" score in
US Medical Licensing Examination (USMLE) style questions with a score of 67.2%
on the MedQA dataset. However, this and other prior work suggested significant
room for improvement, especially when models' answers were compared to
clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by
leveraging a combination of base LLM improvements (PaLM 2), medical domain
finetuning, and prompting strategies including a novel ensemble refinement
approach.
Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM
by over 19% and setting a new state-of-the-art. We also observed performance
approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU
clinical topics datasets.
We performed detailed human evaluations on long-form questions along multiple
axes relevant to clinical applications. In pairwise comparative ranking of 1066
consumer medical questions, physicians preferred Med-PaLM 2 answers to those
produced by physicians on eight of nine axes pertaining to clinical utility (p
< 0.001). We also observed significant improvements compared to Med-PaLM on
every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form
"adversarial" questions to probe LLM limitations.
While further studies are necessary to validate the efficacy of these models
in real-world settings, these results highlight rapid progress towards
physician-level performance in medical question answering.
- Abstract(参考訳): 最近の人工知能(AI)システムは、Goからタンパク質の折り畳みまで"グランドチャレンジ"においてマイルストーンに達した。
医学的知識、理性、医学的質問に答える能力は、長い間、そのような大きな課題と見なされてきた。
大規模言語モデル(llm)は医学的質問応答の大幅な進歩を触媒し、medqaデータセットで67.2%のスコアを持つusmleスタイルの質問において、med-palmは「合格」スコアを超えた最初のモデルである。
しかし、これや他の先行研究は、特にモデルの回答が臨床医の回答と比較された場合、改善の余地を示唆していた。
ここでは,これらのギャップを橋渡しするMed-PaLM 2について,基礎的LCM改善(PaLM2),医療領域の微調整,新しいアンサンブル改良アプローチを含む戦略の推進と組み合わせて紹介する。
Med-PaLM 2は、MedQAデータセットで86.5%のスコアを獲得し、Med-PaLMを19%以上改善し、新しい最先端を設定した。
また,medmcqa,pubmedqa,mmlu臨床トピックのデータセットに近づいたり,あるいは超えたりするパフォーマンスも観察した。
臨床応用に関連する複数の軸に沿った長めの質問に対する詳細な人的評価を行った。
1066の消費者医療質問の対比較ランキングにおいて、医師は臨床的有用性(p < 0.001)に関連する9つの軸のうち8つの軸で医師が生成した回答に対して、med-palm 2 の回答を好んだ。
また,LLMの制限を探索するために240の長文の「逆」質問を新たに導入したデータセットにおいて,各評価軸におけるMed-PaLM (p < 0.001) と比較して有意な改善が見られた。
これらのモデルの有効性を現実世界で検証するにはさらなる研究が必要であるが、医療質問応答における医師レベルのパフォーマンスへの急速な進歩を浮き彫りにしている。
関連論文リスト
- A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Med42 -- Evaluating Fine-Tuning Strategies for Medical LLMs: Full-Parameter vs. Parameter-Efficient Approaches [7.3384872719063114]
我々は,Llama-2アーキテクチャに基づく医療用大規模言語モデル(LLM)を開発し,改良した。
本実験は,様々な医用ベンチマークを用いて,これらのチューニング戦略の有効性を体系的に評価した。
論文 参考訳(メタデータ) (2024-04-23T06:36:21Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - SM70: A Large Language Model for Medical Devices [0.6906005491572401]
SM70は、SpassMedの医療機器向けに設計された大型言語モデルであり、「JEE1」というブランド名(G1と発音して「ライフ」を意味する)で紹介する。
SM70を微調整するために、公開データセットMedAlpacaから約800Kのデータエントリを使用しました。
MEDQA - USMLE, PUBMEDQA, USMLE の3つのベンチマークデータセットで評価を行った。
論文 参考訳(メタデータ) (2023-12-12T04:25:26Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。