Fugu-MT 論文翻訳(概要): Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

論文の概要: Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

arxiv url: http://arxiv.org/abs/2404.00376v2
Date: Sun, 30 Jun 2024 09:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:39:26.699621
Title: Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks
Title（参考訳）: 医学教科書から推論スキルの強化を学習する小言語モデル
Authors: Hyunjae Kim, Hyeon Hwang, Jiwoo Lee, Sihyeon Park, Dain Kim, Taewhoo Lee, Chanwoong Yoon, Jiwoong Sohn, Donghee Choi, Jaewoo Kang,
Abstract要約: 私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。 Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
参考スコア（独自算出の注目度）: 17.40940406100025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source models, their limited parameters often result in insufficient multi-step reasoning capabilities required for solving complex medical problems. To address this, we introduce Meerkat, a new family of medical AI systems ranging from 7 to 70 billion parameters. The models were trained using our new synthetic dataset consisting of high-quality chain-of-thought reasoning paths sourced from 18 medical textbooks, along with diverse instruction-following datasets. Our systems achieved remarkable accuracy across six medical benchmarks, surpassing the previous best models such as MediTron and BioMistral, and GPT-3.5 by a large margin. Notably, Meerkat-7B surpassed the passing threshold of the United States Medical Licensing Examination (USMLE) for the first time for a 7B-parameter model, while Meerkat-70B outperformed GPT-4 by an average of 1.3%. Additionally, Meerkat-70B correctly diagnosed 21 out of 38 complex clinical cases, outperforming humans' 13.8 and closely matching GPT-4's 21.8. Our systems offered more detailed free-form responses to clinical queries compared to existing small models, approaching the performance level of large commercial models. This significantly narrows the performance gap with large LMs, showcasing its effectiveness in addressing complex medical challenges.
Abstract（参考訳）: 近年の商業的大規模言語モデル(LM)の進歩は医療タスクにおいて有望な結果を示しているが、そのクローズドソースの性質は、プライバシーとセキュリティの重大な懸念を招き、医療分野での利用を妨げている。オープンソースのモデルを作る努力にもかかわらず、それらの限られたパラメータは複雑な医療問題を解決するのに必要な多段階推論能力に不足をもたらすことが多い。この問題を解決するために、70億から700億のパラメータからなる医療AIシステムの新しいファミリーであるMeerkatを紹介します。モデルは18の医学教科書から得られた高品質なチェーン・オブ・シンセサイティングパスと、多様なインストラクション・フォロー・データセットからなる、我々の新しい合成データセットを用いて訓練された。当システムでは,メディトロンやBioMistral,GPT-3.5といった従来のベストモデルよりも大きなマージンで,6つのベンチマークで顕著な精度を実現した。特に、Meerkat-7Bは7Bパラメーターモデルで米国医学ライセンス試験(USMLE)の通過閾値を初めて上回り、Meerkat-70BはGPT-4を平均1.3%上回った。さらに、Meerkat-70Bは38例のうち21例を正しく診断し、ヒトの13.8を上回り、GPT-4の21.8と密接に一致している。提案システムでは,既存の小型モデルと比較して,より詳細なフリーフォーム応答が提供され,大規模商用モデルの性能レベルに近づいた。これにより、大規模なLMとパフォーマンスギャップが著しく狭まり、複雑な医療課題に対処する上での有効性が示される。

関連論文リスト

Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文参考訳（メタデータ） (2025-04-10T18:00:27Z)
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文参考訳（メタデータ） (2024-10-19T02:35:35Z)
Eir: Thai Medical Large Language Models [0.0]
Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
論文参考訳（メタデータ） (2024-09-13T04:06:00Z)
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文参考訳（メタデータ） (2024-08-25T13:36:22Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文参考訳（メタデータ） (2024-04-29T04:11:28Z)
BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。 BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文参考訳（メタデータ） (2024-03-27T10:18:21Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文参考訳（メタデータ） (2023-11-27T18:49:43Z)
AlpaCare:Instruction-tuned Large Language Models for Medical Application [23.697610908951443]
GPT-4 と ChatGPT を用いた多種多様な医療用 IFT データセット MedInstruct-52k の作成を提案する。次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。ドメイン固有のデータセットが小さいにもかかわらず、AlpaCareは医療アプリケーションで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-10-23T04:22:50Z)
Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文参考訳（メタデータ） (2022-04-22T17:27:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。