論文の概要: WiNGPT-3.0 Technical Report
- arxiv url: http://arxiv.org/abs/2505.17387v1
- Date: Fri, 23 May 2025 01:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.761199
- Title: WiNGPT-3.0 Technical Report
- Title(参考訳): WiNGPT-3.0技術報告
- Authors: Boqin Zhuang, Chenxiao Song, Huitong Lu, Jiacheng Qiao, Mingqian Liu, Mingxing Yu, Ping Hong, Rui Li, Xiaoxia Song, Xiangjun Xu, Xu Chen, Yaoyao Ma, Yujie Gao,
- Abstract要約: 現在のLarge Language Models (LLMs) は、特に構造化、解釈可能、検証可能な医学的推論において、重大な制限を呈している。
本報告は,32ビリオンパラメータLLMであるWiNGPT-3.0の開発に焦点をあて,医学的推論能力の向上を目的としている。
- 参考スコア(独自算出の注目度): 8.679917766554723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) exhibit significant limitations, notably in structured, interpretable, and verifiable medical reasoning, alongside practical deployment challenges related to computational resources and data privacy. This report focused on the development of WiNGPT-3.0, the 32-billion parameter LLMs, engineered with the objective of enhancing its capacity for medical reasoning and exploring its potential for effective integration within healthcare IT infrastructures. The broader aim is to advance towards clinically applicable models. The approach involved a multi-stage training pipeline tailored for general, medical, and clinical reasoning. This pipeline incorporated supervised fine-tuning (SFT) and reinforcement learning (RL), leveraging curated Long Chain-of-Thought (CoT) datasets, auxiliary reward models, and an evidence-based diagnostic chain simulation. WiNGPT-3.0 demonstrated strong performance: specific model variants achieved scores of 66.6 on MedCalc and 87.1 on MedQA-USMLE. Furthermore, targeted training improved performance on a clinical reasoning task from a baseline score of 58.1 to 62.5. These findings suggest that reinforcement learning, even when applied with a limited dataset of only a few thousand examples, can enhance medical reasoning accuracy. Crucially, this demonstration of RL's efficacy with limited data and computation paves the way for more trustworthy and practically deployable LLMs within clinical workflows and health information infrastructures.
- Abstract(参考訳): 現在のLarge Language Models (LLMs) は、特に構造化、解釈可能、検証可能な医学的推論において、計算資源やデータのプライバシに関する実践的なデプロイ課題とともに、重大な制限を呈している。
本報告は,医学的推論能力の向上と医療ITインフラへの効果的な統合の可能性を探るため,32ビリオンパラメータLLMであるWiNGPT-3.0の開発に焦点をあてる。
より広い目的は、臨床応用モデルに向けて前進することである。
このアプローチには、一般的な、医学的、臨床的推論に適した、多段階のトレーニングパイプラインが含まれていた。
このパイプラインには、教師付き微調整(SFT)と強化学習(RL)、キュレートされたLong Chain-of-Thought(CoT)データセット、補助報酬モデル、エビデンスに基づく診断チェーンシミュレーションが組み込まれている。
WiNGPT-3.0は強力な性能を示し、MedCalcでは66.6点、MedQA-USMLEでは87.1点を記録した。
さらに,臨床推論課題における目標トレーニングは,ベースラインスコア58.1から62.5に改善した。
これらの結果から,数千例の限られたデータセットを応用しても,強化学習が医学的推論精度を高めることが示唆された。
重要なことに、限られたデータと計算によるRLの有効性の実証は、臨床ワークフローや医療情報インフラにおいて、より信頼性が高く実用的なデプロイ可能なLLMの道を開く。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - SMI: An Information-Theoretic Metric for Predicting Model Knowledge Solely from Pre-Training Signals [51.60874286674908]
我々は、モデルの内部知識を示す重要な下流タスクであるクローズドブック質問応答(QA)の性能を予測することを目指している。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴,モデルサイズ,QAの精度を線形に相関する情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Evaluating Computational Accuracy of Large Language Models in Numerical Reasoning Tasks for Healthcare Applications [0.0]
医療分野で大きな言語モデル(LLM)が変革的なツールとして登場した。
数値推論の習熟度、特に臨床応用のような高い評価の領域では、未解明のままである。
本研究では,医療現場における数値推論作業におけるLCMの計算精度について検討した。
論文 参考訳(メタデータ) (2025-01-14T04:29:43Z) - Enhancing In-Hospital Mortality Prediction Using Multi-Representational Learning with LLM-Generated Expert Summaries [3.5508427067904864]
ICU患者の院内死亡率(IHM)予測は、時間的介入と効率的な資源配分に重要である。
本研究は、構造化された生理データと臨床ノートをLarge Language Model(LLM)によって生成された専門家要約と統合し、IHM予測精度を向上させる。
論文 参考訳(メタデータ) (2024-11-25T16:36:38Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Aligning Large Language Models for Clinical Tasks [0.0]
大規模言語モデル(LLM)は目覚ましい適応性を示しており、明示的に訓練されていないタスクに精通する能力を示している。
我々は「Expand-guess-refine」として知られる医療質問応答のためのアライメント戦略を提案する。
この手法の予備的な分析により、USMLEデータセットから得られた質問のサブセットで70.63%のスコアが得られた。
論文 参考訳(メタデータ) (2023-09-06T10:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。