論文の概要: Clinical-R1: Empowering Large Language Models for Faithful and Comprehensive Reasoning with Clinical Objective Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.00601v1
- Date: Sat, 29 Nov 2025 19:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.318276
- Title: Clinical-R1: Empowering Large Language Models for Faithful and Comprehensive Reasoning with Clinical Objective Relative Policy Optimization
- Title(参考訳): 臨床R1: 客観的政策最適化による信頼と包括的推論のための大規模言語モデルの構築
- Authors: Boyang Gu, Hongjian Zhou, Bradley Max Segal, Jinge Wu, Zeyu Cao, Hantao Zhong, Lei Clifton, Fenglin Liu, David A. Clifton,
- Abstract要約: 本稿では,拡張性,多目的性,検証可能な強化学習手法CRPOを紹介する。
CRPOは、人間のアノテーションに頼ることなく、正確さ、忠実さ、包括性を共同で最適化するルールベースおよび検証可能な報酬信号を統合する。
- 参考スコア(独自算出の注目度): 28.610758740650407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have shown strong reasoning capabilities through large-scale pretraining and post-training reinforcement learning, demonstrated by DeepSeek-R1. However, current post-training methods, such as Grouped Relative Policy Optimization (GRPO), mainly reward correctness, which is not aligned with the multi-dimensional objectives required in high-stakes fields such as medicine, where reasoning must also be faithful and comprehensive. We introduce Clinical-Objective Relative Policy Optimization (CRPO), a scalable, multi-objective, verifiable reinforcement learning method designed to align LLM post-training with clinical reasoning principles. CRPO integrates rule-based and verifiable reward signals that jointly optimize accuracy, faithfulness, and comprehensiveness without relying on human annotation. To demonstrate its effectiveness, we train Clinical-R1-3B, a 3B-parameter model for clinical reasoning. The experiments on three benchmarks demonstrate that our CRPO substantially improves reasoning on truthfulness and completeness over standard GRPO while maintaining comfortable accuracy enhancements. This framework provides a scalable pathway to align LLM reasoning with clinical objectives, enabling safer and more collaborative AI systems for healthcare while also highlighting the potential of multi-objective, verifiable RL methods in post-training scaling of LLMs for medical domains.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、DeepSeek-R1で実証された大規模事前学習と後強化学習を通じて、強力な推論能力を示している。
しかし、グループ相対政策最適化(GRPO)のような現在のポストトレーニング手法は、主に正当性に報いるものであり、医学などの高次元の分野において要求される多次元的目的と一致しない。
臨床目的相対政策最適化(CRPO, Clinical-Objective Relative Policy Optimization)は,LLM後トレーニングを臨床理学療法の原則と整合させるために設計された,スケーラブルで多目的で検証可能な強化学習手法である。
CRPOは、人間のアノテーションに頼ることなく、正確さ、忠実さ、包括性を共同で最適化するルールベースおよび検証可能な報酬信号を統合する。
その効果を実証するため,臨床推論のための3BパラメータモデルであるCLI-R1-3Bを訓練した。
3つのベンチマーク実験により、CRPOは精度の向上を維持しつつ、標準GRPOに対する真正性や完全性についての推論を大幅に改善することを示した。
このフレームワークは、LLM推論を臨床的目的と整合させるスケーラブルな経路を提供し、医療領域におけるLLMのトレーニング後のスケーリングにおいて、多目的で検証可能なRLメソッドの可能性を強調しながら、より安全で協力的な医療AIシステムを可能にする。
関連論文リスト
- Multidimensional Rubric-oriented Reward Model Learning via Geometric Projection Reference Constraints [4.79357178898034]
GPRC(Geometric Projection Reference Constraints)を用いたMR-RML(Multidimensional-oriented Reward Model Learning)を導入する。
提案手法は,(1)訓練パイプライン全体にドメイン固有のガイドラインを組み込んだ医療標準システム,(2)評価基準を分解する独立した多次元報酬モデル,(3)臨床認知論理を数学的正則化に変換する予測基準制約,の3つの重要なイノベーションを紹介する。
本手法はQwen-32Bモデルの性能を大幅に向上させ,完全部分集合では45%,ハード部分集合では85%向上させた。
論文 参考訳(メタデータ) (2025-11-20T08:26:16Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning [6.778254993886297]
Fleming-R1は、3つの相補的な革新を通じて、医学的推論を検証するために設計されたモデルである。
まず、我々のReasoning-Oriented Data Strategy(RODS)は、キュレートされた医療用QAデータセットと知識グラフ誘導合成を組み合わせる。
第2に,教師モデルから高品質な推論軌跡を蒸留するために,CoTコールドスタート(Chain-of-Thought)を用いる。
第三に、検証可能なリワードフレームワークから2段階の強化学習を実装します。
論文 参考訳(メタデータ) (2025-09-18T13:35:14Z) - Are Large Language Models Dynamic Treatment Planners? An In Silico Study from a Prior Knowledge Injection Angle [3.0391297540732545]
インシリコ1型糖尿病シミュレーターにおいて,大型言語モデル (LLM) を動的インスリン投与剤として評価した。
以上の結果より, ゼロショットプロンプトを慎重に設計することで, より小型のLCMが同等あるいは優れた臨床成績を達成できることが示唆された。
LLMは、チェーン・オブ・シンドロームで刺激された時に過度にアグレッシブなインスリン投与など、顕著な制限を呈する。
論文 参考訳(メタデータ) (2025-08-06T13:46:02Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - GaNDLF: A Generally Nuanced Deep Learning Framework for Scalable
End-to-End Clinical Workflows in Medical Imaging [76.38169390121057]
コミュニティ主導型汎用ディープラーニングフレームワークGaNDLF(Generally Nuanced Deep Learning Framework)について紹介する。
GaNDLFは、DL開発、トレーニング、推論のメカニズムをより安定させ、再現可能で、解釈可能で、スケーラブルにする。
放射線画像と病理画像の両方をGaNDLFで解析し,k-foldクロスバリデーションをサポートした。
論文 参考訳(メタデータ) (2021-02-26T02:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。