論文の概要: Med-REFL: Medical Reasoning Enhancement via Self-Corrected Fine-grained Reflection
- arxiv url: http://arxiv.org/abs/2506.13793v2
- Date: Mon, 23 Jun 2025 14:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.392565
- Title: Med-REFL: Medical Reasoning Enhancement via Self-Corrected Fine-grained Reflection
- Title(参考訳): Med-REFL: 自己補正微細反射による医学的推論の促進
- Authors: Zongxian Yang, Jiayu Qian, Zegao Peng, Haoyu Zhang, Zhi-An Huang,
- Abstract要約: Med-REFL, underlinetextbfMedical underlinetextbfReasoning underlinetextbfEnhancement via self-corrected underlinetextbfFine-grained refunderlinetextbfLection。
本手法は,医学的疑問を微粒な推論経路に分解し,各ステップとそのその後のリフレクションを定量的に評価する。
- 参考スコア(独自算出の注目度): 7.584796006142439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models have recently made significant strides in mathematical and code reasoning, yet their success has not transferred smoothly to the medical domain. While multiple factors contribute to this disparity, a critical issue is the inadequate focus on the quality of intermediate reflection steps, which is particularly crucial in high-stakes medical scenarios. To address this challenge, we propose Med-REFL, a \underline{\textbf{Med}}ical \underline{\textbf{R}}easoning \underline{\textbf{E}}nhancement via self-corrected \underline{\textbf{F}}ine-grained ref\underline{\textbf{L}}ection. Our method leverages a tree-of-thought approach to decompose medical questions into fine-grained reasoning paths, quantitatively evaluating each step and its subsequent reflections. These assessments enable automatic construction of direct preference optimization data, reducing reliance on expensive expert annotations while guiding models to identify and correct reasoning errors. Experimental results on the MedQA-USMLE benchmark demonstrate Med-REFL achieves consistent improvements, with average gains up to 4.11\%. Notably, it further boosts the state-of-the-art performance of 7B/8B models by an additional 4.13\%. Furthermore, Med-REFL exhibits strong generalization capabilities and robustness across several challenging medical question-answering datasets. Our work illustrates that prioritizing reflection quality leads to more accurate and trustworthy reasoning in medical AI applications. Checkpoints, code, and data can be found in https://github.com/TianYin123/Med-REFL.
- Abstract(参考訳): 大規模な推論モデルは、最近数学とコード推論において大きな進歩を遂げているが、その成功は医療領域にスムーズに移行していない。
複数の要因がこの格差に寄与するが、重要な問題は中間反射ステップの品質に不適切な焦点をあてることである。
この課題に対処するために、Med-REFL, a \underline{\textbf{Med}}ical \underline{\textbf{R}}easoning \underline{\textbf{E}}nhancement via self-corrected \underline{\textbf{F}}ine-fine ref\underline{\textbf{L}}ectionを提案する。
本手法は,医学的疑問を微粒な推論経路に分解し,各ステップとそのその後のリフレクションを定量的に評価する。
これらのアセスメントにより、直接選好最適化データの自動構築が可能となり、高価な専門家アノテーションへの依存を減らすとともに、推論エラーを特定し修正するモデルが導かれる。
MedQA-USMLEベンチマークの実験結果は、Med-REFLが一貫した改善を実現し、平均ゲインは4.11\%に達することを示した。
特に、7B/8Bモデルの最先端性能をさらに4.13\%向上させる。
さらに、Med-REFLは、いくつかの挑戦的な医療質問応答データセットに対して、強力な一般化能力と堅牢性を示す。
私たちの研究は、リフレクション品質の優先順位付けが、医療AIアプリケーションにおいてより正確で信頼できる推論につながることを示しています。
チェックポイント、コード、データはhttps://github.com/TianYin123/Med-REFLで確認できる。
関連論文リスト
- Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [21.831262938278915]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。
Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。
我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文 参考訳(メタデータ) (2025-06-13T05:36:30Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [44.96018028534255]
ReasonMedは最大の医学推論データセットであり、最初の170万の推論パスから370万の高品質なサンプルを抽出した。
我々は、サブ10Bモデルのベンチマークを新たに設定したReasonMed-7Bを4.17%上回り、PubMedQAのLLaMA3.1-70Bを4.60%上回っている。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - MedCite: Can Language Models Generate Verifiable Text for Medicine? [40.000282950108094]
既存のLLMベースの質問応答システムでは、引用生成と評価機能が欠如している。
医療用LLMを用いた引用生成の設計と評価を容易にする最初のエンドツーエンドフレームワークであるnameを紹介する。
本稿では,高品質な引用を生成する新しいマルチパス検索手法を提案する。
論文 参考訳(メタデータ) (2025-06-07T00:46:18Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z) - Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering [24.43605359639671]
我々はMedQA-USMLEデータセットの修正版であるMedQA-OPENを提案する。
臨床シナリオを模倣する選択肢のないオープンエンドの医療質問と、臨床者が承認した理性的な回答を含んでいる。
思考の連鎖(CoT)推論(CLINICR)によって駆動されるプロンプトを実装し,漸進的推論の過程を反映する。
論文 参考訳(メタデータ) (2024-03-07T20:48:40Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。