論文の概要: Med-U1: Incentivizing Unified Medical Reasoning in LLMs via Large-scale Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.12307v2
- Date: Fri, 20 Jun 2025 01:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.477313
- Title: Med-U1: Incentivizing Unified Medical Reasoning in LLMs via Large-scale Reinforcement Learning
- Title(参考訳): Med-U1:大規模強化学習によるLDMにおける統一医療推論のインセンティブ
- Authors: Xiaotian Zhang, Yuan Wang, Zhaopeng Feng, Ruizhe Chen, Zhijie Zhou, Yan Zhang, Hongxia Xu, Jian Wu, Zuozhu Liu,
- Abstract要約: 本稿では,医療質問応答(QA)タスクにおける頑健な推論のための統一的枠組みであるMed-U1を提案する。
多目的報酬最適化により、Med-U1 は LLM に簡潔で検証可能な推論連鎖を生成するよう指示する。
実験の結果、Med-U1は複数の挑戦的なMed-QAベンチマークでパフォーマンスを著しく改善することがわかった。
- 参考スコア(独自算出の注目度): 20.878972841860975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Question-Answering (QA) encompasses a broad spectrum of tasks, including multiple choice questions (MCQ), open-ended text generation, and complex computational reasoning. Despite this variety, a unified framework for delivering high-quality medical QA has yet to emerge. Although recent progress in reasoning-augmented large language models (LLMs) has shown promise, their ability to achieve comprehensive medical understanding is still largely unexplored. In this paper, we present Med-U1, a unified framework for robust reasoning across medical QA tasks with diverse output formats, ranging from MCQs to complex generation and computation tasks. Med-U1 employs pure large-scale reinforcement learning with mixed rule-based binary reward functions, incorporating a length penalty to manage output verbosity. With multi-objective reward optimization, Med-U1 directs LLMs to produce concise and verifiable reasoning chains. Empirical results reveal that Med-U1 significantly improves performance across multiple challenging Med-QA benchmarks, surpassing even larger specialized and proprietary models. Furthermore, Med-U1 demonstrates robust generalization to out-of-distribution (OOD) tasks. Extensive analysis presents insights into training strategies, reasoning chain length control, and reward design for medical LLMs. Our code is available here.
- Abstract(参考訳): 医療質問回答(英語版)(QA)は、複数の選択質問(MCQ)、オープンエンドテキスト生成、複雑な計算推論を含む幅広いタスクを含む。
この多様性にもかかわらず、高品質な医療用QAを提供するための統一されたフレームワークはまだ現れていない。
推論強化大言語モデル(LLM)の最近の進歩は、将来性を示しているが、包括的医学的理解を達成する能力はまだ明らかにされていない。
本稿では,MCQから複雑な生成・計算タスクまで多種多様な出力形式を持つ医療QAタスクに対して,堅牢な推論を行うための統合フレームワークであるMed-U1を提案する。
Med-U1は、完全大規模強化学習と混合ルールベースのバイナリ報酬関数を採用し、出力冗長性を管理するために長さペナルティを取り入れている。
多目的報酬最適化により、Med-U1 は LLM に簡潔で検証可能な推論連鎖を生成するよう指示する。
実証的な結果から、Med-U1は複数の挑戦的なMed-QAベンチマークでパフォーマンスを著しく改善し、さらに大規模でプロプライエタリなモデルを上回ることが判明した。
さらに、Med-U1はアウト・オブ・ディストリビューション(OOD)タスクへの堅牢な一般化を示す。
包括的分析は、トレーニング戦略、推論チェーン長制御、医療用LLMの報酬設計に関する洞察を提示する。
私たちのコードはここにある。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE [17.94158825878658]
MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。
Uni-Medは、普遍的な視覚的特徴抽出モジュール、CMoE(consor Mixed-of-experts)モジュール、LLMで構成される新しい医療一般モデルである。
我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。
論文 参考訳(メタデータ) (2024-09-26T03:33:26Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。