論文の概要: Med-R$^3$: Enhancing Medical Retrieval-Augmented Reasoning of LLMs via Progressive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.23541v1
- Date: Thu, 31 Jul 2025 13:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.821419
- Title: Med-R$^3$: Enhancing Medical Retrieval-Augmented Reasoning of LLMs via Progressive Reinforcement Learning
- Title(参考訳): Med-R$^3$:プログレッシブ強化学習によるLLMの検索強化
- Authors: Keer Lu, Zheng Liang, Youquan Li, Jiejun Tan, Da Pan, Shusen Zhang, Guosheng Dong, Huang Leng,
- Abstract要約: 本稿では、**Med-R$3$*, a*Med*ical **R**etrieval-augmented **R**easoning framework driven by Progress **R**einforcement learningを紹介する。
本稿ではまず,医学的問題に対する論理的推論を行うモデルの開発を行う。
次に,知識コーパスの特性と外部情報の利用性に適合するように,検索機能を適応的に最適化する。
- 参考スコア(独自算出の注目度): 4.467765219631225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical scenarios, effectively retrieving external knowledge and leveraging it for rigorous logical reasoning is of significant importance. Despite their potential, existing work has predominantly focused on enhancing either retrieval or reasoning capabilities of the models in isolation, with little attention given to their joint optimization, which leads to limited coordination between the two processes. Additionally, current methods rely heavily on supervised fine-tuning (SFT), which can cause models to memorize existing problem-solving pathways, thereby restricting their generalization ability when confronted with novel problem contexts. Furthermore, while some studies have explored to improve retrieval-augmented reasoning in general domains via reinforcement learning, their reward function designs do not adequately capture the specific demands of the medical domain. To address these challenges, we introduce **Med-R$^3$**, a **Med**ical **R**etrieval-augmented **R**easoning framework driven by progressive **R**einforcement learning. In this framework, we first develop the model's ability to perform logical reasoning over medical problems. Subsequently, on the basis of this foundation, we adaptively optimize the retrieval capability to better align with the characteristics of knowledge corpus and external information utilization throughout the reasoning process. Finally, we conduct joint optimization of the model's retrieval and reasoning coordination. Extensive experiments indicate that **Med-R$^3$** could achieve state-of-the-art performances, with LLaMA3.1-8B-Instruct + Med-R$^3$ surpassing closed-sourced GPT-4o-mini by 3.93\% at a comparable parameter scale, while Qwen2.5-14B augmented with Med-R$^3$ shows a more substantial gain of 13.53\%.
- Abstract(参考訳): 医学的シナリオでは、外部知識を効果的に回収し、厳密な論理的推論に活用することが重要である。
それらの可能性にもかかわらず、既存の研究は主にモデルの検索能力または推論能力の独立性の向上に重点を置いており、それらの共同最適化にはほとんど注意が払われておらず、2つのプロセス間の調整が限られている。
さらに、現在の手法は教師付き微調整(SFT)に大きく依存しているため、モデルが既存の問題解決経路を記憶し、新しい問題コンテキストに直面する際の一般化能力を制限することができる。
さらに, 一般領域における検索強化推論の改善を強化学習を用いて検討する研究もあるが, 報酬関数の設計は, 医学領域の特定の要求を適切に捉えていない。
これらの課題に対処するために、**Med-R$^3$*, a*Med**ical **R**etrieval-augmented **R**easoning framework driven by Progress **R**einforcement learningを紹介する。
本稿ではまず,医学的問題に対する論理的推論を行うモデルの開発を行う。
そして,この基礎に基づいて,知識コーパスの特性と,推論プロセスを通じて外部情報の利用をよりよく整合させるため,検索能力を適応的に最適化する。
最後に、モデルの検索と推論調整を共同で最適化する。
LLaMA3.1-8B-インストラクト + Med-R$^3$は、同じパラメータスケールで、クローズドソースのGPT-4o-miniを3.93\%以上、Qwen2.5-14BはMed-R$^3$で強化され、より実質的な13.53\%となる。
関連論文リスト
- Content-based 3D Image Retrieval and a ColBERT-inspired Re-ranking for Tumor Flagging and Staging [0.0]
本研究は,3つの重要なコントリビューションを通じて,ボリューム医療画像に対するCBIR研究を進展させる。
C-MIRは,ColBERTの文脈的遅延相互作用機構を応用した3次元医用画像のための新しいボリュームリグレード法である。
本稿では,後続相互作用原理のボリューム医療画像への適応性を実証し,効果的な文脈認識の再ランク付けを可能にする。
論文 参考訳(メタデータ) (2025-07-23T11:12:52Z) - Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training [0.0]
医学推論における最先端性能を実現する32ビリオンパラメータ言語モデルであるGazal-R1を提案する。
我々のモデルは、中規模のモデルが専門分野においてはるかに大きなモデルよりも優れた性能を発揮することを実証している。
Gazal-R1は、MedQAで87.1%、MMLU Proで81.6%、PubMedQAで79.6%、医療ベンチマークで例外的なパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-06-18T09:44:21Z) - CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making [42.28216499263317]
Med-Zero-17Kは、純粋なRLベースのトレーニングのためのキュレートされたデータセットであり、30以上の医療画像モダリティと24の臨床的タスクを含んでいる。
本稿では,Med-VLM のための大規模 RL フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T13:42:46Z) - Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains [52.86636270242863]
この研究は、最終回答の精度を超えて、医学と数学の領域におけるステップバイステップの推論を研究する。
使用した知識の正しさと推論の質を判断する,きめ細かい評価フレームワークを導入する。
この枠組みを用いて,医学・数学領域における教師付き微調整(SFT)および/または強化学習(RL)で訓練されたR1蒸留およびベースQwenモデルについて検討した。
論文 参考訳(メタデータ) (2025-06-02T18:01:00Z) - Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning [2.262453679768892]
医療用VQAに適した,最初のマルチモーダル強化学習フレームワークである textbfMedCCO を紹介する。
MedCCOは、さまざまな医療用VQAタスクに基づいて微調整され、ドメイン基底推論機能を確立する。
MedCCOを8つの挑戦的な医療用VQAベンチマークで検証し、クローズドな設定とオープンな設定の両方にまたがる。
論文 参考訳(メタデータ) (2025-05-25T16:20:55Z) - RARE: Retrieval-Augmented Reasoning Modeling [41.24577920467858]
本稿では,推論最適化から知識記憶を分離する新しいパラダイムであるRetrieval-Augmented Reasoning Modeling (RARE)を提案する。
RAREはドメイン知識を検索可能なソースに外部化し、トレーニング中にドメイン固有の推論パターンを内部化する。
実験により、軽量トレーニングモデル(例えば、Llama-3.1-8B)は、検索強化GPT-4とDeepSeek-R1を約20%の精度で超える、最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2025-03-30T16:49:44Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。