論文の概要: Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.19655v1
- Date: Thu, 27 Feb 2025 00:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:46.67174
- Title: Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning
- Title(参考訳): Med-RLVR:強化学習による3Bベースモデルからの創発的医療推論
- Authors: Sheng Zhang, Qianchu Liu, Guanghui Qin, Tristan Naumann, Hoifung Poon,
- Abstract要約: 検証可能な報酬 (RLVR) からの強化学習は, 明確な推論監督なしに, ベース言語モデルから自己進化推論を引き出す能力に注目が集まっている。
医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。
以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
- 参考スコア(独自算出の注目度): 19.064630697040055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) has recently gained attention for its ability to elicit self-evolved reasoning capabilitie from base language models without explicit reasoning supervisions, as demonstrated by DeepSeek-R1. While prior work on RLVR has primarily focused on mathematical and coding domains, its applicability to other tasks and domains remains unexplored. In this work, we investigate whether medical reasoning can emerge from RLVR. We introduce Med-RLVR as an initial study of RLVR in the medical domain leveraging medical multiple-choice question answering (MCQA) data as verifiable labels. Our results demonstrate that RLVR is not only effective for math and coding but also extends successfully to medical question answering. Notably, Med-RLVR achieves performance comparable to traditional supervised fine-tuning (SFT) on in-distribution tasks while significantly improving out-of-distribution generalization, with an 8-point accuracy gain. Further analysis of training dynamics reveals that, with no explicit reasoning supervision, reasoning emerges from the 3B-parameter base model. These findings underscore the potential of RLVR in domains beyond math and coding, opening new avenues for its application in knowledge-intensive fields such as medicine.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、DeepSeek-R1で実証されたように、ベース言語モデルから自己進化的推論能力を引き出す能力に注目されている。
RLVRに関する以前の研究は、主に数学的およびコーディングの領域に焦点を当てていたが、他のタスクやドメインへの適用性は未検討のままである。
本研究では,RLVRから医学的推論が出現するかどうかを検討する。
医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。
以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
特に、Med-RLVRは、分布内タスクにおける従来の教師付き微調整(SFT)に匹敵する性能を達成し、分布外一般化を著しく改善し、精度は8ポイント向上した。
トレーニング力学のさらなる解析により、3Bパラメータベースモデルから推論が出現することを明らかにする。
これらの知見は、数学やコーディング以外の領域におけるRLVRの可能性を強調し、医学などの知識集約分野への新たな道を開いた。
関連論文リスト
- MedVLThinker: Simple Baselines for Multimodal Medical Reasoning [21.849783391186754]
MedVLThinkerは、推論中心の医療用LMMを構築するための、シンプルだが強力なベースラインのスイートである。
完全オープンなレシピは,(1) テキストのみとイメージテキストの両方の医療データに対する体系的なデータキュレーション,(2) 推論の難易度に応じてフィルタリング,(2) 学習パラダイム: 蒸留された推論トレースの超微調整(SFT) および最終回答の正しさに基づく強化学習(RLVR) から構成される。
論文 参考訳(メタデータ) (2025-08-04T17:59:38Z) - The Invisible Leash: Why RLVR May Not Escape Its Origin [48.915013455847856]
大規模推論モデルの最近の進歩は、AI能力を向上するための有望な方法として、Reinforcement Learning with Verifiable Rewards(RLVR)を強調している。
本研究は,RLVRの潜在的な限界に対する新たな洞察を提供する理論的,実証的研究である。
エントロピー・リワードのトレードオフは、RLVRが精度を確実に向上させる一方で、探索が徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:42:46Z) - Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains [52.86636270242863]
この研究は、最終回答の精度を超えて、医学と数学の領域におけるステップバイステップの推論を研究する。
使用した知識の正しさと推論の質を判断する,きめ細かい評価フレームワークを導入する。
この枠組みを用いて,医学・数学領域における教師付き微調整(SFT)および/または強化学習(RL)で訓練されたR1蒸留およびベースQwenモデルについて検討した。
論文 参考訳(メタデータ) (2025-06-02T18:01:00Z) - Training LLMs for EHR-Based Reasoning Tasks via Reinforcement Learning [28.019558492081437]
検証可能な報酬付き強化学習(RLVR)を用いて,大規模言語モデル(LLM)を複雑な臨床推論タスクに適用するための実践的レシピを提案する。
医療計算(MEDCALC)、患者と臨床の整合性(TREC CLINICAL TRIALS)、疾患診断(EHRSHOT)など,様々な臨床応用における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-05-30T01:13:22Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。
我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。
我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - GMAI-VL-R1: Harnessing Reinforcement Learning for Multimodal Medical Reasoning [28.911445780180077]
本稿では,強化学習(RL)により強化されたマルチモーダル医療推論モデルGMAI-VL-R1について述べる。
本稿では, モデル一般化をさらに促進する推論データ合成法を開発し, 回帰サンプリングによるステップバイステップの推論データを生成する。
RL訓練後,GMAI-VL-R1は画像診断や視覚的質問応答などのタスクに優れていた。
論文 参考訳(メタデータ) (2025-04-02T16:43:16Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Med-R1: Reinforcement Learning for Generalizable Medical Reasoning in Vision-Language Models [6.176432104264649]
視覚言語モデル(VLM)は、自然画像の推論において顕著な進歩を遂げているが、医療画像におけるその可能性はまだ探索されていない。
医用推論における一般化と信頼性の向上を目的とした強化学習(RL)による視覚言語モデルであるMed-R1を提案する。
我々はMed-R1を8つの異なる医用画像モダリティで評価した。
論文 参考訳(メタデータ) (2025-03-18T06:12:38Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
我々は、透明性と信頼性を高めるために、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上し、100万以上のサンプルでトレーニングされたより大きなモデルを上回っている。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Critique of Impure Reason: Unveiling the reasoning behaviour of medical Large Language Models [0.0]
医学領域全体でのLLM(Large Language Models)の普及にもかかわらず、彼らの推論行動に対処する研究が驚くほど不足している。
この文脈では、説明可能なAI(XAI)と等価であるため、高いレベルの予測精度とは対照的に、推論行動を理解することの重要性を強調している。
論文 参考訳(メタデータ) (2024-12-20T10:06:52Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Interpretable Predictive Models for Healthcare via Rational Logistic Regression [1.0855602842179624]
本稿では,論理ロジスティック回帰(RLR)と呼ばれる,標準ロジスティック回帰(LR)を特別に用いた新しいモデルを開発する。
RLRは理論的基盤として有理級数を持ち、時系列データに取り組み、解釈可能なパターンを学ぶ。
実世界の臨床的タスクに関する実証的な比較は、RLRの有効性を示している。
論文 参考訳(メタデータ) (2024-11-05T16:15:25Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - LSTSVR-PI: Least square twin support vector regression with privileged
information [0.0]
特権情報を用いた最小二乗支援ベクトル回帰(LSTSVR-PI)を提案する。
これはLUPIパラダイムを統合し、最小二乗サポートベクトル回帰に追加の情報ソースを利用する。
提案モデルは,LUPIの現代パラダイムと古典的LSTSVRのギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T09:15:10Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。