論文の概要: Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2604.11547v1
- Date: Mon, 13 Apr 2026 14:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.614583
- Title: Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach
- Title(参考訳): 知識強化データ合成による医学的推論の回避:半監督強化学習アプローチ
- Authors: Haolin Li, Shuyang Jiang, Ruipeng Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang,
- Abstract要約: 既存のアプローチでは、教師付き微調整を経て、大規模プロプライエタリモデルからの連鎖推論トレースを蒸留し、強化学習(RL)を実施している。
MedSSRは,医療知識を付加したデータ合成と半教師付き強化学習フレームワークである。
本フレームワークはまず, 分布制御可能な推論質問を合成するために, 稀な疾患知識を利用する。
次に、ポリシーモデル自体を利用して高品質な擬似ラベルを生成する。これにより、擬似ラベルデータ上での自己教師型RLと、人間の注釈付き実データ上での教師型RLの2段階固有の訓練パラダイムが実現される。
- 参考スコア(独自算出の注目度): 62.0906177191353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.
- Abstract(参考訳): 大きな言語モデルは複雑な医療応用を約束するが、それらの開発は高品質な推論データの不足によって妨げられている。
この問題に対処するため、既存のアプローチは典型的には、教師付き微調整(英語版)を通じて大規模な独自モデルの連鎖推論トレースを蒸留し、強化学習(RL)を行う。
これらの手法は、複雑な推論連鎖の生成によるかなりのコストを発生させながら、希少な疾患のような表現不足のドメインを限定的に改善する。
医学的推論の効率化を目的として,医学的知識を付加したデータ合成と半教師付き強化学習フレームワークであるMedSSRを提案する。
本フレームワークはまず, 分布制御可能な推論質問を合成するために, 稀な疾患知識を利用する。
次に、ポリシーモデル自体を利用して高品質な擬似ラベルを生成する。
これにより、擬似ラベル付き合成データに対する自己教師付きRLと、人間の注釈付き実データに対する教師付きRLという、2段階の内在的-外在的訓練パラダイムが実現される。
MedSSRは、高価な微量蒸留に頼ることなく、モデルトレーニングを効率的にスケールする。
Qwen と Llama に関する大規模な実験により、我々の手法は10の医療ベンチマークにおいて既存の手法よりも優れており、希少化タスクにおいて最大で5.93%向上することを示した。
私たちのコードはhttps://github.com/tdlhl/MedSSR.comで公開されています。
関連論文リスト
- Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models [43.46006663176283]
我々は,ラベル付きデータの追加を必要とせずに,ラベルなし強化学習を利用してモデル性能を向上させる医療MLLMのためのフレームワークであるMed-Evoを提案する。
我々のフレームワークは、2つの重要なイノベーションを紹介している: 1)$ Feature-driven Pseudo Labeling (FPL)は、すべての不均一な候補応答からセマンティックセントロイドを識別し、各ロールアウトで擬似ラベルを選択する。
論文 参考訳(メタデータ) (2026-03-08T03:38:24Z) - Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - MedGR$^2$: Breaking the Data Barrier for Medical Reasoning via Generative Reward Learning [4.579424650757833]
既存のデータセット上での監視ファインチューニング(SFT)はしばしば、目に見えないモダリティやタスクの一般化が不十分になる。
我々は,自己改善型活力サイクルを創出する新しいフレームワークである,医療推論のためのジェネレーティブ・リワード・ラーニング(MedGR$2$)を紹介した。
我々の実験は、MedGR$2$生産データを用いたSFTが、大規模で人為的なデータセットで訓練されたベースラインを超えることを実証した。
論文 参考訳(メタデータ) (2025-08-28T08:41:32Z) - HiRef: Leveraging Hierarchical Ontology and Network Refinement for Robust Medication Recommendation [17.45722229030237]
我々は、ロバストメディカルレコメンデーション(HiRef)のための階層的オントロジーとネットワークリファインメントを提案する。
我々は、自然に木のような関係を捉え、共有された祖先を通して知識の伝達を可能にする双曲空間に実体を埋め込む。
本モデルは,EMHベンチマーク(MIMIC-IIIおよびMIMIC-IV)において高い性能を達成し,シミュレーションできないコード設定下で高い精度を維持する。
論文 参考訳(メタデータ) (2025-08-14T07:55:03Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Fairness-Aware Data Augmentation for Cardiac MRI using Text-Conditioned Diffusion Models [1.6581402323174208]
本稿では,データセットに固有の不均衡を,合成データの生成によって緩和する手法を提案する。
我々は,患者メタデータと心臓の形状から合成したテキストを条件に,拡散確率モデルに基づく制御ネットを採用する。
本実験は,データセットの不均衡を緩和する手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-03-28T15:41:43Z) - Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning [5.438725298163702]
自己監視型学習(SSL) 対照的な学習は、データの不足を軽減できる可能性を示している。
本研究の目的は,PCG分類におけるSSLモデルの性能向上を目的とした,幅広いオーディオベースの拡張と組み合わせの探索と評価である。
論文 参考訳(メタデータ) (2023-12-01T11:06:00Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。