論文の概要: Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain
- arxiv url: http://arxiv.org/abs/2504.13950v1
- Date: Wed, 16 Apr 2025 09:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:27:59.936753
- Title: Open-Medical-R1: How to Choose Data for RLVR Training at Medicine Domain
- Title(参考訳): Open-Medical-R1:医療領域におけるRLVRトレーニングのためのデータ選択方法
- Authors: Zhongxi Qiu, Zhang Zhang, Yan Hu, Heng Li, Jiang Liu,
- Abstract要約: 本稿では,医療領域におけるReinforcement Learning with Verified Rewards(RLVR)トレーニングのための最適なデータ選択戦略について検討する。
Phi-4, Gemma-3-27b-it, Gemma-3-12b-itモデルを用いて, ランダムサンプリング(ベースライン)とフィルタリングを行う。
これらの結果から, フィルタデータを用いた学習モデルは, ランダムに選択したサンプルで学習したモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 11.121101189616432
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper explores optimal data selection strategies for Reinforcement Learning with Verified Rewards (RLVR) training in the medical domain. While RLVR has shown exceptional potential for enhancing reasoning capabilities in large language models, most prior implementations have focused on mathematics and logical puzzles, with limited exploration of domain-specific applications like medicine. We investigate four distinct data sampling strategies from MedQA-USMLE: random sampling (baseline), and filtering using Phi-4, Gemma-3-27b-it, and Gemma-3-12b-it models. Using Gemma-3-12b-it as our base model and implementing Group Relative Policy Optimization (GRPO), we evaluate performance across multiple benchmarks including MMLU, GSM8K, MMLU-Pro, and CMMLU. Our findings demonstrate that models trained on filtered data generally outperform those trained on randomly selected samples. Notably, training on self-filtered samples (using Gemma-3-12b-it for filtering) achieved superior performance in medical domains but showed reduced robustness across different benchmarks, while filtering with larger models from the same series yielded better overall robustness. These results provide valuable insights into effective data organization strategies for RLVR in specialized domains and highlight the importance of thoughtful data selection in achieving optimal performance. You can access our repository (https://github.com/Qsingle/open-medical-r1) to get the codes.
- Abstract(参考訳): 本稿では,医療領域におけるReinforcement Learning with Verified Rewards(RLVR)トレーニングのための最適なデータ選択戦略について検討する。
RLVRは、大規模言語モデルにおける推論能力を増強する特別な可能性を示しているが、以前の実装のほとんどは数学や論理パズルに重点を置いており、医学のようなドメイン固有の応用を限定的に探究している。
Phi-4, Gemma-3-27b-it, Gemma-3-12b-itモデルを用いて, ランダムサンプリング(ベースライン)とフィルタリングを行う。
Gemma-3-12b-itをベースモデルとし、グループ相対政策最適化(GRPO)を実装し、MMLU、GSM8K、MMLU-Pro、CMMLUを含む複数のベンチマークのパフォーマンスを評価する。
これらの結果から, フィルタデータを用いた学習モデルは, ランダムに選択したサンプルで学習したモデルよりも優れていた。
特に、自己フィルタリングサンプル(Gemma-3-12b-itをフィルタリングに使用)のトレーニングは、医学領域において優れた性能を示したが、異なるベンチマーク間で堅牢性が低下し、同じシリーズの大型モデルによるフィルタリングにより、全体的な堅牢性が向上した。
これらの結果は、特殊領域におけるRLVRの効果的なデータ組織戦略に関する貴重な洞察を与え、最適なパフォーマンスを達成する上での思慮深いデータ選択の重要性を強調している。
私たちのリポジトリ(https://github.com/Qsingle/open-medical-r1)にアクセスして、コードを取得できます。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies [8.822087602255504]
大きな言語モデルを臨床領域に適用することは、医療記録を処理するという文脈重大な性質のために困難である。
本稿では, 組込みモデルとプール法の違いが臨床領域の情報検索に与える影響について検討する。
論文 参考訳(メタデータ) (2024-09-23T16:16:08Z) - AMAES: Augmented Masked Autoencoder Pretraining on Public Brain MRI Data for 3D-Native Segmentation [2.0749231618270803]
本研究では,3次元セマンティックセグメンテーションモデルの自己教師付き事前学習が大規模・ドメイン固有データセットに与える影響について検討した。
我々は、公開ソースから44,756個の脳MRIボリュームのデータセットであるBRAINS-45Kを紹介した。
論文 参考訳(メタデータ) (2024-08-01T15:27:48Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Benefit from public unlabeled data: A Frangi filtering-based pretraining
network for 3D cerebrovascular segmentation [8.611575147737147]
我々はこれまでで最大の未処理TOF-MRAデータセットを構築した。
本稿では,Frangiフィルタに基づく簡易かつ効果的なトレーニング戦略を提案する。
その結果, モデルの性能が向上し, 約3%の改善が得られた。
論文 参考訳(メタデータ) (2023-12-23T14:47:21Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - On Sampling Collaborative Filtering Datasets [9.041133460836361]
提案アルゴリズムのランク付け性能に対するデータセットサンプリング戦略の実践的結果について検討する。
我々は、与えられたデータセットのモデル性能を最も保持する可能性のあるサンプリングスキームを提案できるオラクル、Data-Genieを開発した。
論文 参考訳(メタデータ) (2022-01-13T02:39:22Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。