論文の概要: Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
- arxiv url: http://arxiv.org/abs/2506.21594v1
- Date: Wed, 18 Jun 2025 09:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.312545
- Title: Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
- Title(参考訳): Gazal-R1:パラメータ効率の良い2段階トレーニングによる最先端医療推論の実現
- Authors: Ahmed M. Adly, Mostafa Samy, Amr Fawzy,
- Abstract要約: 医学推論における最先端性能を実現する32ビリオンパラメータ言語モデルであるGazal-R1を提案する。
我々のモデルは、中規模のモデルが専門分野においてはるかに大きなモデルよりも優れた性能を発揮することを実証している。
Gazal-R1は、MedQAで87.1%、MMLU Proで81.6%、PubMedQAで79.6%、医療ベンチマークで例外的なパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Gazal-R1, a 32-billion-parameter language model that achieves state-of-the-art performance in medical reasoning while providing transparent, step-by-step explanations for clinical decision-making. Built upon Qwen3 32B, our model demonstrates that strategic training can enable mid-sized models to outperform significantly larger counterparts in specialized domains. We developed a novel two-stage training pipeline: first, supervised fine-tuning on a carefully curated dataset of 107,033 synthetic medical reasoning examples that teaches structured clinical thinking, enhanced by advanced parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation (DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using Group Relative Policy Optimization (GRPO) with a sophisticated multi-component reward system that refines accuracy, format adherence, and reasoning quality. Gazal-R1 achieves exceptional performance across medical benchmarks, scoring 87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing models up to 12x larger. Beyond its strong empirical results, this work provides detailed insights into the challenges of training reasoning-capable models in specialized domains, including issues with reward hacking, training instability, and the fundamental tension between factual recall and detailed reasoning. Our methodology offers a reproducible framework for developing high-capability, domain-specific language models that balance performance, efficiency, and explainability.
- Abstract(参考訳): 臨床診断のための透明なステップバイステップの説明を提供しながら、医学推論における最先端のパフォーマンスを実現する32ビリオンパラメータ言語モデルであるGazal-R1を提案する。
Qwen3 32Bをベースとして構築されたこのモデルでは,中規模モデルによる戦略的トレーニングが,特定のドメインにおいてはるかに大きなモデルよりも優れていることを示す。
まず、構造化された臨床思考を指導する107,033個の総合的医学推論のデータセットを教師付き微調整し、重量分解低ランク適応(DoRA)とランク安定化LoRA(rsLoRA)を含む高度なパラメータ効率の手法で強化し、第2に、精度、形式順応、推論品質を洗練する洗練された多成分報酬システムを用いたグループ相対ポリシー最適化(GRPO)を用いた強化学習を行った。
Gazal-R1は、MedQAで87.1%、MMLU Pro(Medical)で81.6%、PubMedQAで79.6%、PubMedQAで最大12倍のパフォーマンスを記録した。
この研究は、強力な実証的な結果の他に、報酬ハッキング、トレーニング不安定性、事実のリコールと詳細な推論の根本的な緊張といった問題を含む、特定のドメインで推論可能なモデルをトレーニングする際の課題に関する詳細な洞察を提供する。
提案手法は,性能,効率,説明可能性のバランスをとる高機能なドメイン固有言語モデルを開発するための再現可能なフレームワークを提供する。
関連論文リスト
- Benchmarking Foundation Models and Parameter-Efficient Fine-Tuning for Prognosis Prediction in Medical Imaging [26.589728923739596]
我々は、新型コロナウイルス患者の臨床結果を予測するために、畳み込みニューラルネットワークとファンデーションモデルの伝達可能性を評価し、比較した。
評価は、広範囲にわたるフルデータシナリオと、より現実的なFew-Shot Learning設定の両方を含む、複数の学習パラダイムで実施された。
論文 参考訳(メタデータ) (2025-06-23T09:16:04Z) - QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training [27.457139119626884]
QoQ-Medは、医療画像、時系列信号、およびテキストレポートを共同で原因付ける、最初のオープン・ジェネラリスト臨床基礎モデルである。
DRPOトレーニングは,すべての視覚領域において,マクロF1の診断性能を平均43%向上させることを示した。
QoQ-Medは集中的なセグメンテーションデータに基づいてトレーニングされており、オープンモデルよりもIoU 10倍高い、診断に関連する健全な領域をハイライトすることができる。
論文 参考訳(メタデータ) (2025-05-31T21:02:52Z) - WiNGPT-3.0 Technical Report [8.679917766554723]
現在のLarge Language Models (LLMs) は、特に構造化、解釈可能、検証可能な医学的推論において、重大な制限を呈している。
本報告は,32ビリオンパラメータLLMであるWiNGPT-3.0の開発に焦点をあて,医学的推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2025-05-23T01:53:04Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。