論文の概要: MedGR$^2$: Breaking the Data Barrier for Medical Reasoning via Generative Reward Learning
- arxiv url: http://arxiv.org/abs/2508.20549v1
- Date: Thu, 28 Aug 2025 08:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.233869
- Title: MedGR$^2$: Breaking the Data Barrier for Medical Reasoning via Generative Reward Learning
- Title(参考訳): MedGR$^2$: 生成的リワード学習による医療推論のためのデータバリアの分割
- Authors: Weihai Zhi, Jiayan Guo, Shangyang Li,
- Abstract要約: 既存のデータセット上での監視ファインチューニング(SFT)はしばしば、目に見えないモダリティやタスクの一般化が不十分になる。
我々は,自己改善型活力サイクルを創出する新しいフレームワークである,医療推論のためのジェネレーティブ・リワード・ラーニング(MedGR$2$)を紹介した。
我々の実験は、MedGR$2$生産データを用いたSFTが、大規模で人為的なデータセットで訓練されたベースラインを超えることを実証した。
- 参考スコア(独自算出の注目度): 4.579424650757833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of Vision-Language Models (VLMs) in medicine is critically hampered by the scarcity of high-quality, expert-annotated data. Supervised Fine-Tuning (SFT) on existing datasets often leads to poor generalization on unseen modalities and tasks, while Reinforcement Learning (RL), a promising alternative, is stymied by the lack of reliable reward signals in this data-scarce domain. To break this impasse, we introduce Generative Reward Learning for Medical Reasoning (MedGR$^2$), a novel framework that creates a self-improving virtuous cycle. MedGR$^2$ co-develops a data generator and a reward model, enabling the automated, continuous creation of high-quality, multi-modal medical data that serves as both a superior training source for SFT and RL. Our experiments demonstrate that SFT with MedGR$^2$-produced data already surpasses baselines trained on large-scale, human-curated datasets. Crucially, when leveraging this data for RL via Group Relative Policy Optimization (GRPO), our model achieves state-of-the-art cross-modality and cross-task generalization, significantly outperforming specialized RL-based methods. Furthermore, our compact model, empowered by MedGR$^2$, achieves performance competitive with foundation models possessing over 10 times more parameters. MedGR$^2$ presents a new paradigm for data-efficient learning in high-stakes domains, transforming the problem from data scarcity to data generation and unlocking the full potential of RL for building truly generalizable medical AI.
- Abstract(参考訳): VLM(Vision-Language Models)の医学への応用は、高品質で専門家による注釈付きデータの不足によって著しく妨げられている。
既存のデータセットの監視されたファインチューニング(SFT)は、しばしば目に見えないモダリティやタスクの一般化が不十分になる一方、有望な代替手段であるReinforcement Learning(RL)は、このデータスカースドメインに信頼性のある報酬信号が欠如していることに悩まされている。
この難題を打破するために、我々は、自己改善の活発なサイクルを生み出す新しいフレームワークであるMedGR$^2$ (Generative Reward Learning for Medical Reasoning)を紹介した。
MedGR$^2$はデータジェネレータと報酬モデルの共同開発であり、SFTとRLの優れたトレーニングソースとして機能する高品質なマルチモーダル医療データの自動作成を可能にする。
我々の実験は、MedGR$^2$-producedデータを用いたSFTが、大規模で人為的なデータセットで訓練されたベースラインを超えることを実証した。
重要なことは、このデータをグループ相対ポリシー最適化(GRPO)を介してRLに活用する場合、我々のモデルは最先端のクロスモーダリティとクロスタスクの一般化を実現し、特殊RLベースの手法を著しく上回っている。
さらに、MedGR$^2$で強化された我々のコンパクトモデルは、10倍以上のパラメータを持つ基礎モデルと性能を競う。
MedGR$^2$は、データ不足からデータ生成へと問題を変換し、真に一般化可能な医療AIを構築するためのRLの潜在能力を最大限に活用する、データ効率の学習のための新しいパラダイムを提示する。
関連論文リスト
- impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - TCDiff: Triplex Cascaded Diffusion for High-fidelity Multimodal EHRs Generation with Incomplete Clinical Data [7.661128607911307]
実世界のEHRデータの特徴を学習するために,3つの拡散ネットワークをカスケードする新しいEHR生成フレームワークTCDiffを提案する。
TCDiffは、さまざまな欠落率でデータ忠実度の平均10%で、最先端のベースラインを一貫して上回っている。
これは、現実のヘルスケアシナリオにおける我々のアプローチの有効性、堅牢性、一般化性を強調します。
論文 参考訳(メタデータ) (2025-08-03T06:24:20Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - FedMRL: Data Heterogeneity Aware Federated Multi-agent Deep Reinforcement Learning for Medical Imaging [12.307490659840845]
我々は,データの不均一性に対処する新しいマルチエージェント深層強化学習フレームワークであるFedMRLを紹介する。
FedMRLは、クライアント間の公平性を促進するために、新たな損失関数を導入し、最終グローバルモデルのバイアスを防ぐ。
その結果,FedMRLが最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-08T10:10:07Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - MMIST-ccRCC: A Real World Medical Dataset for the Development of Multi-Modal Systems [12.914295902429]
本稿では,MMIST-CCRCCと呼ばれる実世界のマルチモーダルデータセットを紹介する。
このデータセットは、クリア細胞腎細胞癌(ccRCC)618例の2つの放射線学的モダリティ(CTとMRI)、病理組織学、ゲノム学、臨床データからなる。
このような深刻な欠落率であっても、モダリティの融合は生存予測の改善につながることを示す。
論文 参考訳(メタデータ) (2024-05-02T18:29:05Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Improved Techniques for the Conditional Generative Augmentation of
Clinical Audio Data [36.45569352490318]
本稿では,学習したデータ分布からメルスペクトルを合成できる条件付き逆方向ニューラルネットワークによる拡張法を提案する。
提案手法は,従来の音質向上手法よりも優れていることを示す。
提案モデルは,臨床オーディオデータの増大における最先端の進歩と,臨床音響センシングシステムの設計におけるデータのボトルネックを改善する。
論文 参考訳(メタデータ) (2022-11-05T10:58:04Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。