論文の概要: Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine
- arxiv url: http://arxiv.org/abs/2311.16452v1
- Date: Tue, 28 Nov 2023 03:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:23:35.571250
- Title: Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine
- Title(参考訳): ジェネリスト・ファンデーション・モデルは特殊目的チューニングに勝るか?
医学におけるケーススタディ
- Authors: Harsha Nori, Yin Tat Lee, Sheng Zhang, Dean Carignan, Richard Edgar,
Nicolo Fusi, Nicholas King, Jonathan Larson, Yuanzhi Li, Weishung Liu,
Renqian Luo, Scott Mayer McKinney, Robert Osazuwa Ness, Hoifung Poon, Tao
Qin, Naoto Usuyama, Chris White, Eric Horvitz
- Abstract要約: 本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
- 参考スコア(独自算出の注目度): 89.46836590149883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist foundation models such as GPT-4 have displayed surprising
capabilities in a wide variety of domains and tasks. Yet, there is a prevalent
assumption that they cannot match specialist capabilities of fine-tuned models.
For example, most explorations to date on medical competency benchmarks have
leveraged domain-specific training, as exemplified by efforts on BioGPT and
Med-PaLM. We build on a prior study of GPT-4's capabilities on medical
challenge benchmarks in the absence of special training. Rather than using
simple prompting to highlight the model's out-of-the-box capabilities, we
perform a systematic exploration of prompt engineering. We find that prompting
innovation can unlock deeper specialist capabilities and show that GPT-4 easily
tops prior leading results for medical benchmarks. The prompting methods we
explore are general purpose, and make no specific use of domain expertise,
removing the need for expert-curated content. Our experimental design carefully
controls for overfitting during the prompt engineering process. We introduce
Medprompt, based on a composition of several prompting strategies. With
Medprompt, GPT-4 achieves state-of-the-art results on all nine of the benchmark
datasets in the MultiMedQA suite. The method outperforms leading specialist
models such as Med-PaLM 2 by a significant margin with an order of magnitude
fewer calls to the model. Steering GPT-4 with Medprompt achieves a 27%
reduction in error rate on the MedQA dataset over the best methods to date
achieved with specialist models and surpasses a score of 90% for the first
time. Beyond medical problems, we show the power of Medprompt to generalize to
other domains and provide evidence for the broad applicability of the approach
via studies of the strategy on exams in electrical engineering, machine
learning, philosophy, accounting, law, nursing, and clinical psychology.
- Abstract(参考訳): GPT-4のような一般的な基礎モデルは、様々な領域やタスクにおいて驚くべき能力を示している。
しかし、微調整モデルの専門的な能力にはマッチしないという仮定が一般的である。
例えば、医療能力ベンチマークにおけるこれまでのほとんどの調査は、BioGPTやMed-PaLMの取り組みによって実証されたように、ドメイン固有のトレーニングを活用している。
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
モデルのアウトオブボックス機能を強調するために単純なプロンプトを使うのではなく、プロンプトエンジニアリングを体系的に調査する。
イノベーションを促進することで、より深い専門的能力が解放され、gpt-4が医療ベンチマークの先行成果を上回ったことが分かります。
調査するプロンプトメソッドは汎用的であり、専門分野の専門知識を特に使用せず、専門家によるコンテンツの必要性を排除しています。
我々の実験設計は、迅速なエンジニアリングプロセスにおける過度な適合を慎重に制御する。
我々は,いくつかのプロンプト戦略の構成に基づき,medpromptを紹介する。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
この手法は、Med-PaLM 2のような主要なスペシャリストモデルよりも、桁違いに少ない精度で性能を向上する。
MedpromptによるGPT-4のステアリングは、MedQAデータセットの27%のエラー率を、これまでスペシャリストモデルで達成された最良のメソッドに対して達成し、初めて90%を超えた。
医療問題以外にも,電気工学,機械学習,哲学,会計学,法学,看護学,臨床心理学における試験戦略の研究を通じて,medpromptが他の領域に一般化し,そのアプローチが広く適用可能であることを示す。
関連論文リスト
- From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond [23.838194250964214]
Medpromptのような実行時のステアリング戦略は、大きな言語モデルを挑戦的なタスクで最高のパフォーマンスに導くのに役立ちます。
OpenAIのo1-previewモデルは、最終応答を生成する前に実行時の推論を行うように設計された新しいパラダイムを表している。
Medpromptに代表される古典的なプロンプトエンジニアリング戦略の有効性を、推論モデルの新しいパラダイムの中で検討する。
論文 参考訳(メタデータ) (2024-11-06T01:09:17Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on
Prompt Engineering Strategies [28.98518677093905]
OpenAIの最新大型ビジョン言語モデルであるGPT-4Vは、医療応用の可能性についてかなりの関心を集めている。
最近の研究や内部レビューでは、専門的な医療業務における過小評価が強調されている。
本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。
論文 参考訳(メタデータ) (2023-12-07T15:05:59Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。