論文の概要: Can large language models reason about medical questions?
- arxiv url: http://arxiv.org/abs/2207.08143v4
- Date: Sun, 24 Dec 2023 11:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:30:19.787019
- Title: Can large language models reason about medical questions?
- Title(参考訳): 大きな言語モデルが医学的問題に当てはまるか?
- Authors: Valentin Li\'evin, Christoffer Egeberg Hother, Andreas Geert
Motzfeldt, Ole Winther
- Abstract要約: 実世界の難解な質問に対する回答と推論に,オープンソースモデルとクローズドモデルを適用することができるかを検討する。
我々は、MedQA-USMLE、MedMCQA、PubMedQAの3つの人気のある医療ベンチマークと複数のプロンプトシナリオに焦点を当てた。
生成されたCoTのエキスパートアノテーションに基づいて、InstructGPTは専門家の知識を読み、分析し、リコールすることができることがわかった。
- 参考スコア(独自算出の注目度): 7.95779617839642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) often produce impressive outputs, it
remains unclear how they perform in real-world scenarios requiring strong
reasoning skills and expert domain knowledge. We set out to investigate whether
close- and open-source models (GPT-3.5, LLama-2, etc.) can be applied to answer
and reason about difficult real-world-based questions. We focus on three
popular medical benchmarks (MedQA-USMLE, MedMCQA, and PubMedQA) and multiple
prompting scenarios: Chain-of-Thought (CoT, think step-by-step), few-shot and
retrieval augmentation. Based on an expert annotation of the generated CoTs, we
found that InstructGPT can often read, reason and recall expert knowledge.
Last, by leveraging advances in prompt engineering (few-shot and ensemble
methods), we demonstrated that GPT-3.5 not only yields calibrated predictive
distributions, but also reaches the passing score on three datasets:
MedQA-USMLE 60.2%, MedMCQA 62.7% and PubMedQA 78.2%. Open-source models are
closing the gap: Llama-2 70B also passed the MedQA-USMLE with 62.5% accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば印象的なアウトプットを生成するが、強力な推論スキルと専門家のドメイン知識を必要とする現実のシナリオでどのように機能するかは、まだ不明である。
そこで我々は,GPT-3.5やLLama-2などのオープンソースモデルが,現実の難解な疑問に答える上で有効かどうかを考察した。
我々は3つの人気のある医療ベンチマーク(MedQA-USMLE、MedMCQA、PubMedQA)と複数のプロンプトシナリオに焦点を当てている。
生成されたCoTのエキスパートアノテーションに基づいて、InstructGPTは専門家の知識を読み、分析し、リコールすることができることがわかった。
最後に, プロンプト工学(フェーショット法とアンサンブル法)の進歩を利用して, GPT-3.5がキャリブレーションされた予測分布を得るだけでなく, MedQA-USMLE 60.2%, MedMCQA 62.7%, PubMedQA 78.2%の3つのデータセットでパススコアに達することを示した。
Llama-2 70Bは62.5%の精度でMedQA-USMLEをパスした。
関連論文リスト
- BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。
微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。
BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文 参考訳(メタデータ) (2024-03-27T10:18:21Z) - SM70: A Large Language Model for Medical Devices [0.6906005491572401]
SM70は、SpassMedの医療機器向けに設計された大型言語モデルであり、「JEE1」というブランド名(G1と発音して「ライフ」を意味する)で紹介する。
SM70を微調整するために、公開データセットMedAlpacaから約800Kのデータエントリを使用しました。
MEDQA - USMLE, PUBMEDQA, USMLE の3つのベンチマークデータセットで評価を行った。
論文 参考訳(メタデータ) (2023-12-12T04:25:26Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model [41.11769935795965]
本稿では,ドメイン固有型連続事前学習(DCPT),スーパーバイザードファインチューニング(SFT),直接選好最適化(DPO)を組み合わせた多段階学習手法を提案する。
CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。
DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MテストセットでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。
論文 参考訳(メタデータ) (2023-10-13T13:17:03Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - MedMine: Examining Pre-trained Language Models on Medication Mining [7.479160954840647]
このような課題に対して,現在最先端のプレトレーニング言語モデル (PLM) について検討する。
我々は,n2c2-2018課題の共有タスクデータセットを用いて,それらの利点と欠点を比較した。
論文 参考訳(メタデータ) (2023-08-07T14:36:03Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Generating multiple-choice questions for medical question answering with
distractors and cue-masking [17.837685583005566]
医学的多重選択質問応答(MCQA)は特に困難である。
標準言語モデリングの事前訓練だけでは、最良の結果を得るには不十分です。
論文 参考訳(メタデータ) (2023-03-13T12:45:01Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。