Fugu-MT 論文翻訳(概要): Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

論文の概要: Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

arxiv url: http://arxiv.org/abs/2404.00376v1
Date: Sat, 30 Mar 2024 14:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 04:10:32.470699
Title: Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks
Title（参考訳）: 医学教科書から推論スキルの強化を学習する小言語モデル
Authors: Hyunjae Kim, Hyeon Hwang, Jiwoo Lee, Sihyeon Park, Dain Kim, Taewhoo Lee, Chanwoong Yoon, Jiwoong Sohn, Donghee Choi, Jaewoo Kang,
Abstract要約: 我々は,70億個のパラメータを持つ新しい医療AIシステムであるMeerkat-7Bを紹介する。 Meerkat-7Bは18の医学教科書から得られた高品質なチェーン・オブ・シーリングパスからなる,我々の新しい合成データセットを用いて訓練された。 GPT-3.5を13.1%上回り、MedTron-7BやBioMistral-7Bを13.4%、BioMistral-7Bを9.8%上回った。
参考スコア（独自算出の注目度）: 17.40940406100025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source models, their limited parameters often result in insufficient multi-step reasoning capabilities required for solving complex medical problems. To address this, we introduce Meerkat-7B, a novel medical AI system with 7 billion parameters. Meerkat-7B was trained using our new synthetic dataset consisting of high-quality chain-of-thought reasoning paths sourced from 18 medical textbooks, along with diverse instruction-following datasets. Our system achieved remarkable accuracy across seven medical benchmarks, surpassing GPT-3.5 by 13.1%, as well as outperforming the previous best 7B models such as MediTron-7B and BioMistral-7B by 13.4% and 9.8%, respectively. Notably, it surpassed the passing threshold of the United States Medical Licensing Examination (USMLE) for the first time for a 7B-parameter model. Additionally, our system offered more detailed free-form responses to clinical queries compared to existing 7B and 13B models, approaching the performance level of GPT-3.5. This significantly narrows the performance gap with large LMs, showcasing its effectiveness in addressing complex medical challenges.
Abstract（参考訳）: 近年の商業的大規模言語モデル(LM)の進歩は医療タスクにおいて有望な結果を示しているが、そのクローズドソースの性質は、プライバシーとセキュリティの重大な懸念を招き、医療分野での利用を妨げている。オープンソースのモデルを作る努力にもかかわらず、それらの限られたパラメータは複雑な医療問題を解決するのに必要な多段階推論能力に不足をもたらすことが多い。これを解決するために,70億個のパラメータを持つ新しい医療用AIシステムであるMeerkat-7Bを紹介する。 Meerkat-7Bは18の医学教科書から得られた高品質なチェーン・オブ・シーリングパスと多様な指導追跡データセットからなる、我々の新しい合成データセットを使用して訓練された。 GPT-3.5を13.1%上回り、メディトロン-7Bやバイオミストラル-7Bといった以前の最高の7Bモデルを13.4%、9.8%上回った。特筆すべきは、米国医学ライセンス試験(USMLE)の通過閾値を7Bパラメーターモデルで初めて上回ったことである。さらに, 既存の7Bモデルと13Bモデルと比較して, GPT-3.5の性能レベルに近づいた。これにより、大規模なLMとパフォーマンスギャップが著しく狭まり、複雑な医療課題に対処する上での有効性が示される。

関連論文リスト

A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。 SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T21:40:21Z)
A Method for the Architecture of a Medical Vertical Large Language Model Based on Deepseek R1 [6.589206192038366]
本稿では,知識獲得,モデル圧縮,計算強化といった課題に対処する,軽量な医療用大規模言語モデルアーキテクチャを提案する。我々は,Low-Rank Adaptation (LoRA) を用いて,DeepSeek-R1-Distill-70BからDeepSeek-R1-Distill-7Bへの知識伝達パイプラインを設計した。提案手法では,USMLEでは92.1%の精度を維持しながら,メモリ消費を64.7%削減し,12.4%のレイテンシをベースライン推論モデルと比較した。
論文参考訳（メタデータ） (2025-04-25T14:28:29Z)
Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文参考訳（メタデータ） (2025-04-10T18:00:27Z)
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文参考訳（メタデータ） (2025-03-19T12:51:52Z)
SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文参考訳（メタデータ） (2024-10-19T02:35:35Z)
Eir: Thai Medical Large Language Models [0.0]
Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
論文参考訳（メタデータ） (2024-09-13T04:06:00Z)
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文参考訳（メタデータ） (2024-08-25T13:36:22Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文参考訳（メタデータ） (2024-04-29T04:11:28Z)
BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。 BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文参考訳（メタデータ） (2024-03-27T10:18:21Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文参考訳（メタデータ） (2023-11-27T18:49:43Z)
AlpaCare:Instruction-tuned Large Language Models for Medical Application [23.697610908951443]
GPT-4 と ChatGPT を用いた多種多様な医療用 IFT データセット MedInstruct-52k の作成を提案する。次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。ドメイン固有のデータセットが小さいにもかかわらず、AlpaCareは医療アプリケーションで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-10-23T04:22:50Z)
Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文参考訳（メタデータ） (2022-04-22T17:27:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。