論文の概要: Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.15279v1
- Date: Thu, 18 Sep 2025 13:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.844757
- Title: Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning
- Title(参考訳): Fleming-R1:強化学習によるエキスパートレベル医療推論に向けて
- Authors: Chi Liu, Derek Li, Yan Shu, Robin Chen, Derek Duan, Teng Fang, Bryan Dai,
- Abstract要約: Fleming-R1は、3つの相補的な革新を通じて、医学的推論を検証するために設計されたモデルである。
まず、我々のReasoning-Oriented Data Strategy(RODS)は、キュレートされた医療用QAデータセットと知識グラフ誘導合成を組み合わせる。
第2に,教師モデルから高品質な推論軌跡を蒸留するために,CoTコールドスタート(Chain-of-Thought)を用いる。
第三に、検証可能なリワードフレームワークから2段階の強化学習を実装します。
- 参考スコア(独自算出の注目度): 6.778254993886297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models show promise in medical applications, achieving expert-level clinical reasoning remains challenging due to the need for both accurate answers and transparent reasoning processes. To address this challenge, we introduce Fleming-R1, a model designed for verifiable medical reasoning through three complementary innovations. First, our Reasoning-Oriented Data Strategy (RODS) combines curated medical QA datasets with knowledge-graph-guided synthesis to improve coverage of underrepresented diseases, drugs, and multi-hop reasoning chains. Second, we employ Chain-of-Thought (CoT) cold start to distill high-quality reasoning trajectories from teacher models, establishing robust inference priors. Third, we implement a two-stage Reinforcement Learning from Verifiable Rewards (RLVR) framework using Group Relative Policy Optimization, which consolidates core reasoning skills while targeting persistent failure modes through adaptive hard-sample mining. Across diverse medical benchmarks, Fleming-R1 delivers substantial parameter-efficient improvements: the 7B variant surpasses much larger baselines, while the 32B model achieves near-parity with GPT-4o and consistently outperforms strong open-source alternatives. These results demonstrate that structured data design, reasoning-oriented initialization, and verifiable reinforcement learning can advance clinical reasoning beyond simple accuracy optimization. We release Fleming-R1 publicly to promote transparent, reproducible, and auditable progress in medical AI, enabling safer deployment in high-stakes clinical environments.
- Abstract(参考訳): 大きな言語モデルは医療応用において有望であるが、正確な答えと透明な推論プロセスの両方を必要とするため、専門家レベルの臨床推論を達成することは依然として困難である。
この課題に対処するために、Fleming-R1という3つの相補的な革新を通して、医学的推論を検証するために設計されたモデルを紹介します。
まず、我々のReasoning-Oriented Data Strategy(RODS)は、医療用QAデータセットと知識グラフ誘導合成を組み合わせることで、表現不足の疾患、薬物、マルチホップ推論チェーンのカバレッジを改善する。
第2に,教師モデルから高品質な推論軌道を蒸留し,頑健な推論先を確立するために,CoTコールドスタート(Chain-of-Thought)を採用する。
第3に,グループ相対政策最適化を用いた2段階強化学習(RLVR)フレームワークを実装した。
Fleming-R1は、様々な医療ベンチマークにおいて、パラメータ効率の大幅な改善を実現している: 7Bの派生版は、はるかに大きなベースラインを超える一方、32BモデルはGPT-4oでほぼ同等であり、強力なオープンソース代替品より一貫して優れている。
これらの結果は, 構造化データ設計, 推論指向の初期化, 検証可能な強化学習が, 簡易な精度最適化を超えて臨床推論を推し進めることを示す。
われわれはFleming-R1を公開して、医療AIの透明性、再現性、監査可能な進歩を促進するとともに、より安全な医療環境への展開を可能にする。
関連論文リスト
- MedFact-R1: Towards Factual Medical Reasoning via Pseudo-Label Augmentation [25.186622292311228]
MEDFACT-R1は、外部知識基盤と強化学習を統合した2段階のフレームワークである。
従来の最先端手法に比べて22.5%の精度で絶対的な改善が達成されている。
論文 参考訳(メタデータ) (2025-09-18T16:59:59Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement [35.368152968098194]
FastFOD-Netは、FODを優れたパフォーマンスで強化し、臨床使用のためのトレーニング/推論効率を提供するエンドツーエンドのディープラーニングフレームワークである。
この研究は、拡散MRIの強化のための深層学習に基づく手法を、より広く採用し、臨床信頼を構築することを促進する。
論文 参考訳(メタデータ) (2025-08-13T17:56:29Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Med-R$^3$: Enhancing Medical Retrieval-Augmented Reasoning of LLMs via Progressive Reinforcement Learning [31.58210903685538]
本稿では、**Med-R$3$*, a*Med*ical **R**etrieval-augmented **R**easoning framework driven by Progress **R**einforcement learningを紹介する。
本稿ではまず,医学的問題に対する論理的推論を行うモデルの開発を行う。
次に,知識コーパスの特性と外部情報の利用性に適合するように,検索機能を適応的に最適化する。
論文 参考訳(メタデータ) (2025-07-31T13:31:01Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:42:46Z) - Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning [2.262453679768892]
医療用VQAに適した,最初のマルチモーダル強化学習フレームワークである textbfMedCCO を紹介する。
MedCCOは、さまざまな医療用VQAタスクに基づいて微調整され、ドメイン基底推論機能を確立する。
MedCCOを8つの挑戦的な医療用VQAベンチマークで検証し、クローズドな設定とオープンな設定の両方にまたがる。
論文 参考訳(メタデータ) (2025-05-25T16:20:55Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。