論文の概要: ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning
- arxiv url: http://arxiv.org/abs/2506.09513v2
- Date: Mon, 22 Sep 2025 06:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.290475
- Title: ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning
- Title(参考訳): ReasonMed:医学的推論を促進するための370万のマルチエージェント生成データセット
- Authors: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Deli Zhao, Wenbing Huang, Tingyang Xu, Qifeng Bai, Yu Rong,
- Abstract要約: ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
- 参考スコア(独自算出の注目度): 54.30630356786752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-based large language models have excelled in mathematics and programming, yet their potential in knowledge-intensive medical question answering remains underexplored and insufficiently validated in clinical contexts. To bridge this gap, we introduce ReasonMed, the largest medical reasoning dataset to date, comprising 370k high-quality examples distilled from 1.75 million initial reasoning paths generated by complementary LLMs and curated through a cost-efficient easy-medium-difficult (EMD) pipeline. ReasonMed is built through a multi-agent generation, verification, and refinement process, in which an Error Refiner improves reasoning paths by correcting error-prone steps identified by a verifier. Using ReasonMed, we investigate effective strategies for training medical reasoning models and find that integrating detailed CoT reasoning with concise answer summaries yields the most robust fine-tuning results. Models trained on ReasonMed set a new benchmark: ReasonMed-7B surpasses the prior best sub-10B models by 4.17% and even exceeds LLaMA3.1-70B on PubMedQA by 4.60%. When scaled to ReasonMed-14B, it remains highly competitive, underscoring consistent scaling potential. The codes and datasets are available at https://github.com/YuSun-Work/ReasonMed.
- Abstract(参考訳): 推論に基づく大規模言語モデルは数学やプログラミングに優れているが、知識集約的な医学的質問応答の可能性は、臨床の文脈では未検討であり、十分に検証されていない。
このギャップを埋めるために、私たちはReasonMedという、これまでで最大の医療推論データセットを紹介します。
ReasonMedはマルチエージェント生成、検証、改善プロセスを通じて構築され、Error Refinerは検証者によって特定されるエラー発生ステップを修正することによって推論パスを改善する。
ReasonMedを用いて、医療推論モデルのトレーニングのための効果的な戦略を調査し、詳細なCoT推論と簡潔な回答の要約を組み合わせることで、最も堅牢な微調整結果が得られることを発見した。
ReasonMed-7Bは4.17%、PubMedQAではLLaMA3.1-70Bを4.60%上回る。
ReasonMed-14Bにスケールすると、非常に競争力があり、一貫したスケーリングの可能性を示している。
コードとデータセットはhttps://github.com/YuSun-Work/ReasonMed.comで公開されている。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs [23.50838763761289]
我々は、厳密で効果的な医療連鎖データを生成するために、Mentor-Intern Collaborative Search (MICS)を提案する。
推論性能は、生成された推論パスの品質を評価するMICSスコアによって決定される。
最終的に、難易度の高いマルチタスク医療推論データセットであるMMRPと、カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z) - Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [21.831262938278915]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。
Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。
我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文 参考訳(メタデータ) (2025-06-13T05:36:30Z) - Disentangling Reasoning and Knowledge in Medical Large Language Models [23.401484250342158]
大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。
MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。
バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。
我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
論文 参考訳(メタデータ) (2025-05-16T17:16:27Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - QM-ToT: A Medical Tree of Thoughts Reasoning Framework for Quantized Model [15.30318329533069]
大規模言語モデル(LLM)は、医学的推論に固有の複雑さのために、専門的な生物医学的タスクにおいて重大な課題に直面している。
パスベースの推論フレームワークであるQuantized Medical Tree of Thought (QM-ToT)を提案する。
LLaMA2-70bモデルでは34%から50%,LLaMA-3.1-8bでは58.77%から69.49%に顕著な精度向上を示した。
論文 参考訳(メタデータ) (2025-04-13T12:32:25Z) - MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs [39.65443626577068]
高品質な医療推論データセットであるMedReasonを紹介する。
我々のパイプラインは7つの医学データセットから様々な医学的質問の詳細な推論を生成する。
私たちの最高のパフォーマンスモデルであるMedReason-8Bは、最先端の医療推論モデルであるHuatuo-o1-8Bを、臨床ベンチマークMedBulletsで最大4.2%上回っています。
論文 参考訳(メタデータ) (2025-04-01T17:31:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs [19.448687758457318]
複雑な推論が可能な医療用LLMであるHuatuoGPT-o1は、40K問題のみを使用して、一般および医療固有のベースラインを上回ります。
実験により、複雑な推論は医学的問題解決を改善し、強化学習の恩恵を受けることが示されている。
論文 参考訳(メタデータ) (2024-12-25T15:12:34Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。