論文の概要: Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks
- arxiv url: http://arxiv.org/abs/2404.00376v1
- Date: Sat, 30 Mar 2024 14:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:10:32.470699
- Title: Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks
- Title(参考訳): 医学教科書から推論スキルの強化を学習する小言語モデル
- Authors: Hyunjae Kim, Hyeon Hwang, Jiwoo Lee, Sihyeon Park, Dain Kim, Taewhoo Lee, Chanwoong Yoon, Jiwoong Sohn, Donghee Choi, Jaewoo Kang,
- Abstract要約: 我々は,70億個のパラメータを持つ新しい医療AIシステムであるMeerkat-7Bを紹介する。
Meerkat-7Bは18の医学教科書から得られた高品質なチェーン・オブ・シーリングパスからなる,我々の新しい合成データセットを用いて訓練された。
GPT-3.5を13.1%上回り、MedTron-7BやBioMistral-7Bを13.4%、BioMistral-7Bを9.8%上回った。
- 参考スコア(独自算出の注目度): 17.40940406100025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source models, their limited parameters often result in insufficient multi-step reasoning capabilities required for solving complex medical problems. To address this, we introduce Meerkat-7B, a novel medical AI system with 7 billion parameters. Meerkat-7B was trained using our new synthetic dataset consisting of high-quality chain-of-thought reasoning paths sourced from 18 medical textbooks, along with diverse instruction-following datasets. Our system achieved remarkable accuracy across seven medical benchmarks, surpassing GPT-3.5 by 13.1%, as well as outperforming the previous best 7B models such as MediTron-7B and BioMistral-7B by 13.4% and 9.8%, respectively. Notably, it surpassed the passing threshold of the United States Medical Licensing Examination (USMLE) for the first time for a 7B-parameter model. Additionally, our system offered more detailed free-form responses to clinical queries compared to existing 7B and 13B models, approaching the performance level of GPT-3.5. This significantly narrows the performance gap with large LMs, showcasing its effectiveness in addressing complex medical challenges.
- Abstract(参考訳): 近年の商業的大規模言語モデル(LM)の進歩は医療タスクにおいて有望な結果を示しているが、そのクローズドソースの性質は、プライバシーとセキュリティの重大な懸念を招き、医療分野での利用を妨げている。
オープンソースのモデルを作る努力にもかかわらず、それらの限られたパラメータは複雑な医療問題を解決するのに必要な多段階推論能力に不足をもたらすことが多い。
これを解決するために,70億個のパラメータを持つ新しい医療用AIシステムであるMeerkat-7Bを紹介する。
Meerkat-7Bは18の医学教科書から得られた高品質なチェーン・オブ・シーリングパスと多様な指導追跡データセットからなる、我々の新しい合成データセットを使用して訓練された。
GPT-3.5を13.1%上回り、メディトロン-7Bやバイオミストラル-7Bといった以前の最高の7Bモデルを13.4%、9.8%上回った。
特筆すべきは、米国医学ライセンス試験(USMLE)の通過閾値を7Bパラメーターモデルで初めて上回ったことである。
さらに, 既存の7Bモデルと13Bモデルと比較して, GPT-3.5の性能レベルに近づいた。
これにより、大規模なLMとパフォーマンスギャップが著しく狭まり、複雑な医療課題に対処する上での有効性が示される。
関連論文リスト
- Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Assessing The Potential Of Mid-Sized Language Models For Clinical QA [24.116649037975762]
GPT-4 や Med-PaLM のような大規模言語モデルは、臨床上のタスクにおいて顕著な性能を示した。
BioGPT-large、BioMedLM、LLaMA 2、Mistral 7Bのような中型モデルはこれらの欠点を避ける。
本研究は,臨床業務におけるオープンソース中規模モデルの初回評価を行う。
論文 参考訳(メタデータ) (2024-04-24T14:32:34Z) - BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。
微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。
BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文 参考訳(メタデータ) (2024-03-27T10:18:21Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.2263444492222]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Apollo: An Lightweight Multilingual Medical LLM towards Democratizing
Medical AI to 6B People [74.95250992640979]
我々は6つの最も広く話されている言語にまたがる医療用LLMの開発を目指しており、世界人口は610億人である。
この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。
トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2024-03-06T11:56:02Z) - Me LLaMA: Foundation Large Language Models for Medical Applications [42.01236455049301]
Me-LLaMAは、バイオメディカルデータと臨床データの両方を利用する新しい医療基盤モデルである。
Me-LLaMAモデルは、ゼロショット、少数ショット、教師あり学習能力において、既存のオープンソース医療用LLMよりも優れたパフォーマンスを実現する。
Me-LLaMAモデルは8つのデータセットのうち7つでChatGPTを、8つのデータセットのうち5つでGPT-4を上回ります。
論文 参考訳(メタデータ) (2024-02-20T06:37:31Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - AlpaCare:Instruction-tuned Large Language Models for Medical Application [23.697610908951443]
GPT-4 と ChatGPT を用いた多種多様な医療用 IFT データセット MedInstruct-52k の作成を提案する。
次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。
ドメイン固有のデータセットが小さいにもかかわらず、AlpaCareは医療アプリケーションで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-10-23T04:22:50Z) - Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model [41.11769935795965]
本稿では,ドメイン固有型連続事前学習(DCPT),スーパーバイザードファインチューニング(SFT),直接選好最適化(DPO)を組み合わせた多段階学習手法を提案する。
CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。
DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MテストセットでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。
論文 参考訳(メタデータ) (2023-10-13T13:17:03Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。