論文の概要: Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
- arxiv url: http://arxiv.org/abs/2505.17952v1
- Date: Fri, 23 May 2025 14:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.149524
- Title: Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
- Title(参考訳): 蒸留を超えて : ミニマリストルールに基づくRLによるLLM推論の限界を推し進める
- Authors: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci,
- Abstract要約: 第1回AlphaMedは,強化学習(RL)によって推論能力が純粋に現れることを示す最初の医学的LLMである。
AlphaMedは、従来のSFT+RLパイプラインでトレーニングされたモデルよりも優れた6つの医学的QAベンチマークで最先端の結果を達成する。
以上の結果から,データセットの有意性は推論性能の重要な要因であり,複数選択QAデータに対する最小限のRLは,CoTの監督なしに推論を誘導する上で有効であることが示唆された。
- 参考スコア(独自算出の注目度): 26.138061467729212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving performance on complex tasks and enabling interpretable decision making in large language models (LLMs), especially for clinical applications, requires effective reasoning. Yet this remains challenging without supervised fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the first medical LLM to show that reasoning capability can emerge purely through reinforcement learning (RL), using minimalist rule-based rewards on public multiple-choice QA datasets, without relying on SFT or distilled CoT data. AlphaMed achieves state-of-the-art results on six medical QA benchmarks, outperforming models trained with conventional SFT+RL pipelines. On challenging benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the factors behind this success, we conduct a comprehensive data-centric analysis guided by three questions: (i) Can minimalist rule-based RL incentivize reasoning without distilled CoT supervision? (ii) How do dataset quantity and diversity impact reasoning? (iii) How does question difficulty shape the emergence and generalization of reasoning? Our findings show that dataset informativeness is a key driver of reasoning performance, and that minimalist RL on informative, multiple-choice QA data is effective at inducing reasoning without CoT supervision. We also observe divergent trends across benchmarks, underscoring limitations in current evaluation and the need for more challenging, reasoning-oriented medical QA benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)における複雑なタスクの性能向上と解釈可能な意思決定の実現には,特に臨床応用において効果的な推論が必要である。
しかし、これは、クローズドソースモデル(例えば、GPT-4o)から抽出したコストのかかるチェーン・オブ・シント(CoT)データに対して、監督された微調整(SFT)なしでは困難なままである。
本稿では,SFTや蒸留CoTデータに頼らずに,一般の多目的QAデータセットに対する最小限の規則に基づく報酬を用いて,推論能力が純粋に強化学習(RL)によって出現することを示す最初の医療用LLMであるAlphaMedを紹介する。
AlphaMedは、従来のSFT+RLパイプラインでトレーニングされたモデルよりも優れた6つの医学的QAベンチマークで最先端の結果を達成する。
挑戦的なベンチマーク(例えば、MedXpert)では、AlphaMedはDeepSeek-V3-671BやClaude-3.5-Sonnetといった大規模またはクローズドソースモデルを超えている。
この成功の背景にある要因を理解するために、私たちは3つの質問によってガイドされた包括的なデータ中心の分析を行います。
二 最低限の規則に基づくRLは、COTを蒸留することなく推論を動機付けることができるか。
二 データセットの量及び多様性が推論にどのような影響を与えるか。
三 質問困難は、推論の出現と一般化をどう形成するか。
以上の結果から,データセットの有意性は推論性能の重要な要因であり,複数選択QAデータに対する最小限のRLは,CoTの監督を伴わない推論の誘導に有効であることが示唆された。
また、ベンチマーク間のばらつき傾向を観察し、現在の評価における制限と、より困難な推論指向の医療QAベンチマークの必要性を裏付ける。
関連論文リスト
- CoLoTa: A Dataset for Entity-based Commonsense Reasoning over Long-Tail Knowledge [19.34131843380852]
我々は、Long-Tailエンティティ(CoLoTa)上でのCommonsense推論のための新しいデータセットを提案する。
CoLoTaは質問応答とクレーム検証タスクから3,300のクエリで構成されている。
我々は,LLMコモンセンス推論能力と,長い尾を持つ物体に対する幻覚に対する頑健性の両方を評価するための新しいベンチマークとしてCoLoTaを提案する。
論文 参考訳(メタデータ) (2025-04-20T02:47:18Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。
提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
精度は4.0%から44.3%に向上した。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Cognitive-Mental-LLM: Evaluating Reasoning in Large Language Models for Mental Health Prediction via Online Text [0.0]
本研究では,Reddit から得られた複数のメンタルヘルスデータセットの分類精度を向上させるため,構造化推論手法-Chain-of-Thought (CoT), Self-Consistency (SC-CoT), Tree-of-Thought (ToT) の評価を行った。
我々は,Zero-shot CoTやFew-shot CoTといった推論駆動型プロンプト戦略を,Ba balanced Accuracy,F1 score,Sensitivity/Specificityといった重要なパフォーマンス指標を用いて分析する。
以上の結果から,特に複雑な場合において,推論手法により直接予測よりも分類性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-03-13T06:42:37Z) - Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
蒸留された長いCoTデータは、小さなモデルでは学習が困難であり、バイアスの継承につながることがわかった。
我々はモンテカルロ木探索を用いて木に基づくCOTデータを構築することを提案する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。