論文の概要: Med-U1: Incentivizing Unified Medical Reasoning in LLMs via Large-scale Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.12307v2
- Date: Fri, 20 Jun 2025 01:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.477313
- Title: Med-U1: Incentivizing Unified Medical Reasoning in LLMs via Large-scale Reinforcement Learning
- Title(参考訳): Med-U1:大規模強化学習によるLDMにおける統一医療推論のインセンティブ
- Authors: Xiaotian Zhang, Yuan Wang, Zhaopeng Feng, Ruizhe Chen, Zhijie Zhou, Yan Zhang, Hongxia Xu, Jian Wu, Zuozhu Liu,
- Abstract要約: 本稿では,医療質問応答(QA)タスクにおける頑健な推論のための統一的枠組みであるMed-U1を提案する。
多目的報酬最適化により、Med-U1 は LLM に簡潔で検証可能な推論連鎖を生成するよう指示する。
実験の結果、Med-U1は複数の挑戦的なMed-QAベンチマークでパフォーマンスを著しく改善することがわかった。
- 参考スコア(独自算出の注目度): 20.878972841860975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Question-Answering (QA) encompasses a broad spectrum of tasks, including multiple choice questions (MCQ), open-ended text generation, and complex computational reasoning. Despite this variety, a unified framework for delivering high-quality medical QA has yet to emerge. Although recent progress in reasoning-augmented large language models (LLMs) has shown promise, their ability to achieve comprehensive medical understanding is still largely unexplored. In this paper, we present Med-U1, a unified framework for robust reasoning across medical QA tasks with diverse output formats, ranging from MCQs to complex generation and computation tasks. Med-U1 employs pure large-scale reinforcement learning with mixed rule-based binary reward functions, incorporating a length penalty to manage output verbosity. With multi-objective reward optimization, Med-U1 directs LLMs to produce concise and verifiable reasoning chains. Empirical results reveal that Med-U1 significantly improves performance across multiple challenging Med-QA benchmarks, surpassing even larger specialized and proprietary models. Furthermore, Med-U1 demonstrates robust generalization to out-of-distribution (OOD) tasks. Extensive analysis presents insights into training strategies, reasoning chain length control, and reward design for medical LLMs. Our code is available here.
- Abstract(参考訳): 医療質問回答(英語版)(QA)は、複数の選択質問(MCQ)、オープンエンドテキスト生成、複雑な計算推論を含む幅広いタスクを含む。
この多様性にもかかわらず、高品質な医療用QAを提供するための統一されたフレームワークはまだ現れていない。
推論強化大言語モデル(LLM)の最近の進歩は、将来性を示しているが、包括的医学的理解を達成する能力はまだ明らかにされていない。
本稿では,MCQから複雑な生成・計算タスクまで多種多様な出力形式を持つ医療QAタスクに対して,堅牢な推論を行うための統合フレームワークであるMed-U1を提案する。
Med-U1は、完全大規模強化学習と混合ルールベースのバイナリ報酬関数を採用し、出力冗長性を管理するために長さペナルティを取り入れている。
多目的報酬最適化により、Med-U1 は LLM に簡潔で検証可能な推論連鎖を生成するよう指示する。
実証的な結果から、Med-U1は複数の挑戦的なMed-QAベンチマークでパフォーマンスを著しく改善し、さらに大規模でプロプライエタリなモデルを上回ることが判明した。
さらに、Med-U1はアウト・オブ・ディストリビューション(OOD)タスクへの堅牢な一般化を示す。
包括的分析は、トレーニング戦略、推論チェーン長制御、医療用LLMの報酬設計に関する洞察を提示する。
私たちのコードはここにある。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE [17.94158825878658]
MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。
Uni-Medは、普遍的な視覚的特徴抽出モジュール、CMoE(consor Mixed-of-experts)モジュール、LLMで構成される新しい医療一般モデルである。
我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。
論文 参考訳(メタデータ) (2024-09-26T03:33:26Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - From Beginner to Expert: Modeling Medical Knowledge into General LLMs [22.475129648458136]
大規模言語モデル(LLM)に基づく人工知能(AI)システムは、自然言語の理解と生成において顕著な能力を示した。
これらのモデルは、医学的な知識を推論したり、医師のような方法で医学的な疑問に答えたりするといった、繊細な応用に関して重要な課題に直面している。
本研究は、事前訓練された一般LLMモデル(AntGLM-10B)から始まり、医療初心者から医療専門家(AntGLM-Med-10B)に微調整する。
論文 参考訳(メタデータ) (2023-12-02T05:54:06Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。