論文の概要: Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine
- arxiv url: http://arxiv.org/abs/2311.16452v1
- Date: Tue, 28 Nov 2023 03:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:23:35.571250
- Title: Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine
- Title(参考訳): ジェネリスト・ファンデーション・モデルは特殊目的チューニングに勝るか?
医学におけるケーススタディ
- Authors: Harsha Nori, Yin Tat Lee, Sheng Zhang, Dean Carignan, Richard Edgar,
Nicolo Fusi, Nicholas King, Jonathan Larson, Yuanzhi Li, Weishung Liu,
Renqian Luo, Scott Mayer McKinney, Robert Osazuwa Ness, Hoifung Poon, Tao
Qin, Naoto Usuyama, Chris White, Eric Horvitz
- Abstract要約: 本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
- 参考スコア(独自算出の注目度): 89.46836590149883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist foundation models such as GPT-4 have displayed surprising
capabilities in a wide variety of domains and tasks. Yet, there is a prevalent
assumption that they cannot match specialist capabilities of fine-tuned models.
For example, most explorations to date on medical competency benchmarks have
leveraged domain-specific training, as exemplified by efforts on BioGPT and
Med-PaLM. We build on a prior study of GPT-4's capabilities on medical
challenge benchmarks in the absence of special training. Rather than using
simple prompting to highlight the model's out-of-the-box capabilities, we
perform a systematic exploration of prompt engineering. We find that prompting
innovation can unlock deeper specialist capabilities and show that GPT-4 easily
tops prior leading results for medical benchmarks. The prompting methods we
explore are general purpose, and make no specific use of domain expertise,
removing the need for expert-curated content. Our experimental design carefully
controls for overfitting during the prompt engineering process. We introduce
Medprompt, based on a composition of several prompting strategies. With
Medprompt, GPT-4 achieves state-of-the-art results on all nine of the benchmark
datasets in the MultiMedQA suite. The method outperforms leading specialist
models such as Med-PaLM 2 by a significant margin with an order of magnitude
fewer calls to the model. Steering GPT-4 with Medprompt achieves a 27%
reduction in error rate on the MedQA dataset over the best methods to date
achieved with specialist models and surpasses a score of 90% for the first
time. Beyond medical problems, we show the power of Medprompt to generalize to
other domains and provide evidence for the broad applicability of the approach
via studies of the strategy on exams in electrical engineering, machine
learning, philosophy, accounting, law, nursing, and clinical psychology.
- Abstract(参考訳): GPT-4のような一般的な基礎モデルは、様々な領域やタスクにおいて驚くべき能力を示している。
しかし、微調整モデルの専門的な能力にはマッチしないという仮定が一般的である。
例えば、医療能力ベンチマークにおけるこれまでのほとんどの調査は、BioGPTやMed-PaLMの取り組みによって実証されたように、ドメイン固有のトレーニングを活用している。
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
モデルのアウトオブボックス機能を強調するために単純なプロンプトを使うのではなく、プロンプトエンジニアリングを体系的に調査する。
イノベーションを促進することで、より深い専門的能力が解放され、gpt-4が医療ベンチマークの先行成果を上回ったことが分かります。
調査するプロンプトメソッドは汎用的であり、専門分野の専門知識を特に使用せず、専門家によるコンテンツの必要性を排除しています。
我々の実験設計は、迅速なエンジニアリングプロセスにおける過度な適合を慎重に制御する。
我々は,いくつかのプロンプト戦略の構成に基づき,medpromptを紹介する。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
この手法は、Med-PaLM 2のような主要なスペシャリストモデルよりも、桁違いに少ない精度で性能を向上する。
MedpromptによるGPT-4のステアリングは、MedQAデータセットの27%のエラー率を、これまでスペシャリストモデルで達成された最良のメソッドに対して達成し、初めて90%を超えた。
医療問題以外にも,電気工学,機械学習,哲学,会計学,法学,看護学,臨床心理学における試験戦略の研究を通じて,medpromptが他の領域に一般化し,そのアプローチが広く適用可能であることを示す。
関連論文リスト
- Training Small Multimodal Models to Bridge Biomedical Competency Gap: A
Case Study in Radiology Imaging [114.43429928419755]
バイオメディカル・コンピテンシー・ギャップを橋渡しするオープンソース小型マルチモーダル・モデル(SMM)の訓練について検討する。
LLaVA-Radは高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - OpenMEDLab: An Open-source Platform for Multi-modality Foundation Models
in Medicine [55.29668193415034]
マルチモダリティ基盤モデルのためのオープンソースプラットフォームであるOpenMEDLabについて紹介する。
これは、最前線臨床および生体情報学応用のための大規模言語とビジョンモデルを刺激し、微調整する先駆的な試みの解決策をカプセル化する。
様々な医用画像のモダリティ、臨床テキスト、タンパク質工学など、事前訓練された基礎モデル群へのアクセスが可能である。
論文 参考訳(メタデータ) (2024-02-28T03:51:02Z) - Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on
Prompt Engineering Strategies [28.98518677093905]
OpenAIの最新大型ビジョン言語モデルであるGPT-4Vは、医療応用の可能性についてかなりの関心を集めている。
最近の研究や内部レビューでは、専門的な医療業務における過小評価が強調されている。
本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。
論文 参考訳(メタデータ) (2023-12-07T15:05:59Z) - Do Physicians Know How to Prompt? The Need for Automatic Prompt
Optimization Help in Clinical Note Generation [7.928268707936675]
本稿では,医療専門家,非医療専門家,APO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化フレームワークを提案する。
その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。
Human-in-the-loopアプローチは、専門家が自身の修正を好みながら、APO以降のコンテンツ品質を維持することを示している。
論文 参考訳(メタデータ) (2023-11-16T08:54:52Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Transformer-based classification of user queries for medical consultancy
with respect to expert specialization [4.124390946636936]
本稿では,RuBERTモデルを用いた医療相談分野におけるユーザからの問い合わせを分類するための革新的な戦略を提案する。
我々は,クエリと特定の医療専門知識の正確な対応を容易にする様々なデータセット上で,事前学習したRuBERTモデルを微調整した。
論文 参考訳(メタデータ) (2023-09-26T04:36:12Z) - BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained
Transformer for Vision, Language, and Multimodal Tasks [67.32172830174797]
バイオメディカルタスクのための,初のオープンソースで汎用的なビジュアル言語AIであるBiomedGPTを提案する。
26のデータセットで5つの臨床的に重要なタスクに対して16の最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。