Fugu-MT 論文翻訳(概要): MedS$^3$: Towards Medical Small Language Models with Self-Evolved Slow Thinking

論文の概要: MedS$^3$: Towards Medical Small Language Models with Self-Evolved Slow Thinking

arxiv url: http://arxiv.org/abs/2501.12051v1
Date: Tue, 21 Jan 2025 11:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.634448
Title: MedS$^3$: Towards Medical Small Language Models with Self-Evolved Slow Thinking
Title（参考訳）: MedS$^3$:Self-Evolved Slow Thinkingによる医療用小言語モデルを目指して
Authors: Shuyang Jiang, Yusheng Liao, Zhe Chen, Ya Zhang, Yanfeng Wang, Yu Wang,
Abstract要約: デプロイ可能な,小規模の医療用言語モデルであるMoneを提示する。 Moneは、自己進化パラダイムを使用して、臨床タスクにおける長鎖推論のために設計されている。 11の評価データセットの実験では、moneは以前のオープンソースモデルよりも2ポイント優れていた。
参考スコア（独自算出の注目度）: 31.265628928038335
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Medical language models (MLMs) have become pivotal in advancing medical natural language processing. However, prior models that rely on pre-training or supervised fine-tuning often exhibit low data efficiency and limited practicality in real-world clinical applications. While OpenAIs O1 highlights test-time scaling in mathematics, attempts to replicate this approach in medicine typically distill responses from GPT-series models to open-source models, focusing primarily on multiple-choice tasks. This strategy, though straightforward, neglects critical concerns like data privacy and realistic deployment in clinical settings. In this work, we present a deployable, small-scale medical language model, \mone, designed for long-chain reasoning in clinical tasks using a self-evolution paradigm. Starting with a seed dataset of around 8,000 instances spanning five domains and 16 datasets, we prompt a base policy model to perform Monte Carlo Tree Search (MCTS) to construct verifiable reasoning chains. Each reasoning step is assigned an evolution rollout value, allowing verified trajectories to train the policy model and the reward model. During inference, the policy model generates multiple responses, and the reward model selects the one with the highest reward score. Experiments on eleven evaluation datasets demonstrate that \mone outperforms prior open-source models by 2 points, with the addition of the reward model further boosting performance ($\sim$13 points), surpassing GPT-4o-mini. Code and data are available at \url{https://github.com/pixas/MedSSS}.
Abstract（参考訳）: 医学自然言語モデル(MLM)は、医学自然言語処理の進歩において重要な役割を担っている。しかし、事前訓練や教師付き微調整に依存する先行モデルは、実際の臨床応用において低いデータ効率と限られた実用性を示すことが多い。 OpenAIs O1は数学におけるテスト時間のスケーリングを強調しているが、医学においてこのアプローチを再現しようとする試みは、主に複数選択タスクに焦点を当てたGPTシリーズモデルからオープンソースモデルへの応答を蒸留するのが一般的である。この戦略は単純ではあるが、データプライバシや臨床環境における現実的なデプロイといった重要な懸念を無視している。本研究では, 自己進化パラダイムを用いて, 臨床作業における長鎖推論のために設計された, 展開可能な, 小規模医療用言語モデルであるShamoneを提案する。 5つのドメインと16のデータセットにまたがる約8,000インスタンスのシードデータセットから始めると、基本ポリシーモデルにモンテカルロ木探索(MCTS)を実行して検証可能な推論チェーンを構築するように促します。各推論ステップには進化のロールアウト値が割り当てられ、検証された軌道はポリシーモデルと報酬モデルをトレーニングすることができる。推論中、ポリシーモデルは複数の応答を生成し、報酬モデルは最も高い報酬スコアを持つものを選択する。 11つの評価データセットの実験では、Shamoneは以前のオープンソースモデルよりも2ポイント優れており、報酬モデルの追加によりパフォーマンスがさらに向上し(\sim$13ポイント)、GPT-4o-miniを上回っている。コードとデータは \url{https://github.com/pixas/MedSSS} で公開されている。

関連論文リスト

Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Is larger always better? Evaluating and prompting large language models for non-generative medical tasks [11.799956298563844]
本研究は、GPTベースのLCM、BERTベースのモデル、従来の臨床予測モデルなど、さまざまなモデルをベンチマークする。我々は,寛容と予測,疾患階層再構築,生物医学的文章マッチングといった課題に焦点をあてた。その結果, LLMは, 適切に設計されたプロンプト戦略を用いて, 構造化EHRデータに対して頑健なゼロショット予測能力を示した。構造化されていない医療用テキストでは、LLMは細調整されたBERTモデルよりも優れておらず、教師なしタスクと教師なしタスクの両方に優れていた。
論文参考訳（メタデータ） (2024-07-26T06:09:10Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-15T17:55:05Z)
Federated Learning of Medical Concepts Embedding using BEHRT [0.0]
医療概念の埋め込み学習のための連合学習手法を提案する。我々のアプローチは、EHRのディープニューラルネットワークモデルであるBEHRTのような埋め込みモデルに基づいている。我々は、FLで訓練されたモデルと集中型データで訓練されたモデルのパフォーマンスを比較した。
論文参考訳（メタデータ） (2023-05-22T14:05:39Z)
Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。 physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文参考訳（メタデータ） (2023-02-16T05:08:34Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)
Competence-based Multimodal Curriculum Learning for Medical Report Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文参考訳（メタデータ） (2022-06-24T08:16:01Z)
A multi-stage machine learning model on diagnosis of esophageal manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文参考訳（メタデータ） (2021-06-25T20:09:23Z)
Med7: a transferable clinical natural language processing model for electronic health records [6.935142529928062]
本稿では,臨床自然言語処理のための匿名認識モデルを提案する。このモデルは、薬物名、ルート、頻度、摂取量、強度、形態、期間の7つのカテゴリを認識するよう訓練されている。本研究は、米国における集中治療室のデータから、英国における二次医療精神保健記録(CRIS)へのモデル導入可能性を評価するものである。
論文参考訳（メタデータ） (2020-03-03T00:55:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。