論文の概要: ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning
- arxiv url: http://arxiv.org/abs/2506.09513v1
- Date: Wed, 11 Jun 2025 08:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.765034
- Title: ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning
- Title(参考訳): ReasonMed:医学的推論を促進するための370万のマルチエージェント生成データセット
- Authors: Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu,
- Abstract要約: ReasonMedは最大の医学推論データセットであり、最初の170万の推論パスから370万の高品質なサンプルを抽出した。
我々は、サブ10Bモデルのベンチマークを新たに設定したReasonMed-7Bを4.17%上回り、PubMedQAのLLaMA3.1-70Bを4.60%上回っている。
- 参考スコア(独自算出の注目度): 44.96018028534255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though reasoning-based large language models (LLMs) have excelled in mathematics and programming, their capabilities in knowledge-intensive medical question answering remain underexplored. To address this, we introduce ReasonMed, the largest medical reasoning dataset, comprising 370k high-quality examples distilled from 1.7 million initial reasoning paths generated by various LLMs. ReasonMed is constructed through a \textit{multi-agent verification and refinement process}, where we design an \textit{Error Refiner} to enhance the reasoning paths by identifying and correcting error-prone steps flagged by a verifier. Leveraging ReasonMed, we systematically investigate best practices for training medical reasoning models and find that combining detailed Chain-of-Thought (CoT) reasoning with concise answer summaries yields the most effective fine-tuning strategy. Based on this strategy, we train ReasonMed-7B, which sets a new benchmark for sub-10B models, outperforming the prior best by 4.17\% and even exceeding LLaMA3.1-70B on PubMedQA by 4.60\%.
- Abstract(参考訳): 推論に基づく大規模言語モデル(LLM)は数学やプログラミングに優れているが、知識集約型医療質問応答の能力はいまだに未熟である。
そこで本研究では,LLMが生成する170万個の初期推論パスから抽出した370万個の高品質な例からなる,最大の医療推論データセットであるReasonMedを紹介する。
ReasonMed は \textit{multi-agent confirmed and refinement process} によって構築され,検証器によってフラグ付けされたエラー発生ステップを識別・修正することにより,推論経路を強化するために \textit{Error Refiner} を設計する。
ReasonMedを活用することで、医学的推論モデルを訓練するためのベストプラクティスを体系的に検討し、簡潔な回答サマリーと詳細なチェーン・オブ・ソート(CoT)推論を組み合わせることで、最も効果的な微調整戦略が得られます。
この戦略に基づいて、サブ10Bモデルのベンチマークを新たに設定したReasonMed-7Bをトレーニングし、4.17\%、PubMedQAのLLaMA3.1-70Bを4.60\%上回った。
関連論文リスト
- Disentangling Reasoning and Knowledge in Medical Large Language Models [23.401484250342158]
大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。
MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。
バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。
我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
論文 参考訳(メタデータ) (2025-05-16T17:16:27Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - QM-ToT: A Medical Tree of Thoughts Reasoning Framework for Quantized Model [15.30318329533069]
大規模言語モデル(LLM)は、医学的推論に固有の複雑さのために、専門的な生物医学的タスクにおいて重大な課題に直面している。
パスベースの推論フレームワークであるQuantized Medical Tree of Thought (QM-ToT)を提案する。
LLaMA2-70bモデルでは34%から50%,LLaMA-3.1-8bでは58.77%から69.49%に顕著な精度向上を示した。
論文 参考訳(メタデータ) (2025-04-13T12:32:25Z) - MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs [39.65443626577068]
高品質な医療推論データセットであるMedReasonを紹介する。
我々のパイプラインは7つの医学データセットから様々な医学的質問の詳細な推論を生成する。
私たちの最高のパフォーマンスモデルであるMedReason-8Bは、最先端の医療推論モデルであるHuatuo-o1-8Bを、臨床ベンチマークMedBulletsで最大4.2%上回っています。
論文 参考訳(メタデータ) (2025-04-01T17:31:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs [19.448687758457318]
複雑な推論が可能な医療用LLMであるHuatuoGPT-o1は、40K問題のみを使用して、一般および医療固有のベースラインを上回ります。
実験により、複雑な推論は医学的問題解決を改善し、強化学習の恩恵を受けることが示されている。
論文 参考訳(メタデータ) (2024-12-25T15:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。