論文の概要: Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.19655v1
- Date: Thu, 27 Feb 2025 00:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:18.249911
- Title: Med-RLVR: Emerging Medical Reasoning from a 3B base model via reinforcement Learning
- Title(参考訳): Med-RLVR:強化学習による3Bベースモデルからの創発的医療推論
- Authors: Sheng Zhang, Qianchu Liu, Guanghui Qin, Tristan Naumann, Hoifung Poon,
- Abstract要約: 検証可能な報酬 (RLVR) からの強化学習は, 明確な推論監督なしに, ベース言語モデルから自己進化推論を引き出す能力に注目が集まっている。
医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。
以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
- 参考スコア(独自算出の注目度): 19.064630697040055
- License:
- Abstract: Reinforcement learning from verifiable rewards (RLVR) has recently gained attention for its ability to elicit self-evolved reasoning capabilitie from base language models without explicit reasoning supervisions, as demonstrated by DeepSeek-R1. While prior work on RLVR has primarily focused on mathematical and coding domains, its applicability to other tasks and domains remains unexplored. In this work, we investigate whether medical reasoning can emerge from RLVR. We introduce Med-RLVR as an initial study of RLVR in the medical domain leveraging medical multiple-choice question answering (MCQA) data as verifiable labels. Our results demonstrate that RLVR is not only effective for math and coding but also extends successfully to medical question answering. Notably, Med-RLVR achieves performance comparable to traditional supervised fine-tuning (SFT) on in-distribution tasks while significantly improving out-of-distribution generalization, with an 8-point accuracy gain. Further analysis of training dynamics reveals that, with no explicit reasoning supervision, reasoning emerges from the 3B-parameter base model. These findings underscore the potential of RLVR in domains beyond math and coding, opening new avenues for its application in knowledge-intensive fields such as medicine.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、DeepSeek-R1で実証されたように、ベース言語モデルから自己進化的推論能力を引き出す能力に注目されている。
RLVRに関する以前の研究は、主に数学的およびコーディングの領域に焦点を当てていたが、他のタスクやドメインへの適用性は未検討のままである。
本研究では,RLVRから医学的推論が出現するかどうかを検討する。
医療領域におけるRLVRの初期研究として,MCQA(Med-RLVR)データを検証ラベルとして活用したMed-RLVRを紹介した。
以上の結果から,RLVRは数学やコーディングに有効であるだけでなく,医学的質問応答にも有効であることが示された。
特に、Med-RLVRは、分布内タスクにおける従来の教師付き微調整(SFT)に匹敵する性能を達成し、分布外一般化を著しく改善し、精度は8ポイント向上した。
トレーニング力学のさらなる解析により、3Bパラメータベースモデルから推論が出現することを明らかにする。
これらの知見は、数学やコーディング以外の領域におけるRLVRの可能性を強調し、医学などの知識集約分野への新たな道を開いた。
関連論文リスト
- LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Critique of Impure Reason: Unveiling the reasoning behaviour of medical Large Language Models [0.0]
医学領域全体でのLLM(Large Language Models)の普及にもかかわらず、彼らの推論行動に対処する研究が驚くほど不足している。
この文脈では、説明可能なAI(XAI)と等価であるため、高いレベルの予測精度とは対照的に、推論行動を理解することの重要性を強調している。
論文 参考訳(メタデータ) (2024-12-20T10:06:52Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Interpretable Predictive Models for Healthcare via Rational Logistic Regression [1.0855602842179624]
本稿では,論理ロジスティック回帰(RLR)と呼ばれる,標準ロジスティック回帰(LR)を特別に用いた新しいモデルを開発する。
RLRは理論的基盤として有理級数を持ち、時系列データに取り組み、解釈可能なパターンを学ぶ。
実世界の臨床的タスクに関する実証的な比較は、RLRの有効性を示している。
論文 参考訳(メタデータ) (2024-11-05T16:15:25Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Explainable Diagnosis Prediction through Neuro-Symbolic Integration [11.842565087408449]
我々は、診断予測のための説明可能なモデルを開発するために、神経象徴的手法、特に論理ニューラルネットワーク(LNN)を用いている。
私たちのモデル、特に$M_textmulti-pathway$と$M_textcomprehensive$は、従来のモデルよりも優れたパフォーマンスを示します。
これらの知見は、医療AI応用における精度と説明可能性のギャップを埋める神経象徴的アプローチの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-01T22:47:24Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。