論文の概要: Can large language models reason about medical questions?
- arxiv url: http://arxiv.org/abs/2207.08143v1
- Date: Sun, 17 Jul 2022 11:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 14:07:53.459045
- Title: Can large language models reason about medical questions?
- Title(参考訳): 大きな言語モデルが医学的問題に当てはまるか?
- Authors: Valentin Li\'evin, Christoffer Egeberg Hother, Ole Winther
- Abstract要約: 大規模言語モデル(LLM)は、しばしば印象的な出力を生成するが、推論に失敗し、事実である。
我々は、これらの制限がLLMの難解な実世界の質問に答え、推論する能力にどのように影響するかを調査した。
GPT-3を多票検診の回答に応用した。
- 参考スコア(独自算出の注目度): 8.695121314255756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) often produce impressive outputs, they
also fail to reason and be factual. We set out to investigate how these
limitations affect the LLM's ability to answer and reason about difficult
real-world based questions. We applied the human-aligned GPT-3 (InstructGPT) to
answer multiple-choice medical exam questions (USMLE and MedMCQA) and medical
research questions (PubMedQA). We investigated Chain-of-thought (think step by
step) prompts, grounding (augmenting the prompt with search results) and
few-shot (prepending the question with question-answer exemplars). For a subset
of the USMLE questions, a medical domain expert reviewed and annotated the
model's reasoning. Overall, GPT-3 achieved a substantial improvement in
state-of-the-art machine learning performance. We observed that GPT-3 is often
knowledgeable and can reason about medical questions. GPT-3, when confronted
with a question it cannot answer, will still attempt to answer, often resulting
in a biased predictive distribution. LLMs are not on par with human performance
but our results suggest the emergence of reasoning patterns that are compatible
with medical problem-solving. We speculate that scaling model and data,
enhancing prompt alignment and allowing for better contextualization of the
completions will be sufficient for LLMs to reach human-level performance on
this type of task.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば印象的なアウトプットを生成するが、推論に失敗し、事実である。
我々は、これらの制限がLLMの難解な実世界の質問に対する答えと推論能力にどのように影響するかを調査した。
GPT-3 (InstructGPT) を用いて, 多票検診質問 (USMLE, MedMCQA) および医学研究質問 (PubMedQA) に回答した。
本研究は, 思考の連鎖(ステップ・バイ・ステップ)のプロンプト, グラウンド(検索結果によるプロンプトの増大), 少数ショット(質問応答の先取り)について検討した。
USMLEの質問のサブセットについて、医療分野の専門家がモデルの推論をレビューし、注釈を付けた。
全体として、GPT-3は最先端の機械学習性能を大幅に改善した。
GPT-3はよく知識があり,医学的疑問を推論できる。
GPT-3は、答えられない質問に直面すると、まだ答えようと試み、しばしばバイアスのある予測分布をもたらす。
LLMはヒトと同等ではないが,医学的問題解決に適合する推論パターンの出現を示唆している。
モデルとデータのスケーリング、迅速なアライメントの強化、完了の文脈化の促進は、LLMがこの種のタスクにおいて人間レベルのパフォーマンスに達するのに十分である、と推測する。
関連論文リスト
- To Generate or to Retrieve? On the Effectiveness of Artificial Contexts
for Medical Open-Domain Question Answering [19.554275869652315]
本稿では,医学における質問応答のための第1世代読解フレームワークであるMedGENIEについて述べる。
MedQA-USMLE, MedMCQA, MMLUについて, 最大24GB VRAMを仮定して, 実用的視点を取り入れた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-03-04T10:41:52Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information
Seeking in Large Language Models [76.56588769677835]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、そして'20 Questions'ゲームの実験において、UoTは57.8%の性能向上を達成している。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - SM70: A Large Language Model for Medical Devices [0.6906005491572401]
SM70は、SpassMedの医療機器向けに設計された大型言語モデルであり、「JEE1」というブランド名(G1と発音して「ライフ」を意味する)で紹介する。
SM70を微調整するために、公開データセットMedAlpacaから約800Kのデータエントリを使用しました。
MEDQA - USMLE, PUBMEDQA, USMLE の3つのベンチマークデータセットで評価を行った。
論文 参考訳(メタデータ) (2023-12-12T04:25:26Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - MedMine: Examining Pre-trained Language Models on Medication Mining [7.479160954840647]
このような課題に対して,現在最先端のプレトレーニング言語モデル (PLM) について検討する。
我々は,n2c2-2018課題の共有タスクデータセットを用いて,それらの利点と欠点を比較した。
論文 参考訳(メタデータ) (2023-08-07T14:36:03Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Generating multiple-choice questions for medical question answering with
distractors and cue-masking [17.837685583005566]
医学的多重選択質問応答(MCQA)は特に困難である。
標準言語モデリングの事前訓練だけでは、最良の結果を得るには不十分です。
論文 参考訳(メタデータ) (2023-03-13T12:45:01Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。