論文の概要: MedReflect: Teaching Medical LLMs to Self-Improve via Reflective Correction
- arxiv url: http://arxiv.org/abs/2510.03687v1
- Date: Sat, 04 Oct 2025 06:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.195615
- Title: MedReflect: Teaching Medical LLMs to Self-Improve via Reflective Correction
- Title(参考訳): MedReflect:リフレクティブ・コレクティブ・コレクティブによる自己改善のための医療用LLMの指導
- Authors: Yue Huang, Yanyuan Chen, Dexuan Xu, Weihua Yue, Huamin Zhang, Meikang Qiu, Yu Huang,
- Abstract要約: MedReflectは、医師のようなリフレクティブ思考モードで、大きな言語モデルに刺激を与えるように設計されたフレームワークである。
MedReflectは費用効率の良い医療データセット構築を可能にする。
以上の結果から, LLM が自己反射と自己改善によって, 専門的な医療問題の解決を学べることを示す。
- 参考スコア(独自算出の注目度): 23.71420855072473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical problem solving demands expert knowledge and intricate reasoning. Recent studies of large language models (LLMs) attempt to ease this complexity by introducing external knowledge verification through retrieval-augmented generation or by training on reasoning datasets. However, these approaches suffer from drawbacks such as retrieval overhead and high annotation costs, and they heavily rely on substituted external assistants to reach limited performance in medical field. In this paper, we introduce MedReflect, a generalizable framework designed to inspire LLMs with a physician-like reflective thinking mode. MedReflect generates a single-pass reflection chain that includes initial hypothesis generation, self-questioning, self-answering and decision refinement. This self-verified and self-reflective nature releases large language model's latent capability in medical problem-solving without external retrieval or heavy annotation. We demonstrate that MedReflect enables cost-efficient medical dataset construction: with merely 2,000 randomly sampled training examples and a light fine-tuning, this approach achieves notable absolute accuracy improvements across a series of medical benchmarks while cutting annotation requirements. Our results provide evidence that LLMs can learn to solve specialized medical problems via self-reflection and self-improve, reducing reliance on external supervision and extensive task-specific fine-tuning data.
- Abstract(参考訳): 医学的な問題解決は専門知識と複雑な推論を必要とする。
大規模言語モデル(LLM)の最近の研究は、検索強化世代による外部知識検証の導入や、推論データセットのトレーニングによって、この複雑さを緩和しようとしている。
しかし,これらのアプローチは,検索オーバーヘッドやアノテーションコストなどの欠点に悩まされており,医療分野での限られたパフォーマンスを達成するために,代替の外部アシスタントに大きく依存している。
本稿では,医師のようなリフレクティブ思考モードで LLM を刺激する汎用フレームワーク MedReflect を紹介する。
MedReflectは、最初の仮説生成、自己問合せ、自己回答、決定の洗練を含む単一パスのリフレクションチェーンを生成する。
この自己検証的かつ自己認識的な性質は、外部の検索や重いアノテーションを使わずに、医学的問題解決における大きな言語モデルの潜在能力を解放する。
我々は、MedReflectがコスト効率のよい医療データセット構築を可能にすることを実証した: ランダムにサンプル化した2000のトレーニング例と軽微調整により、本手法は、アノテーション要件をカットしながら、一連の医療ベンチマークにおいて顕著な絶対精度の向上を実現する。
以上の結果から,LSMが自己回帰と自己改善によって専門的な医学的問題を解決することを学べること,外部監督やタスク特異的微調整データへの依存を軽減できることを示す。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - Med-R$^2$: Crafting Trustworthy LLM Physicians via Retrieval and Reasoning of Evidence-Based Medicine [40.651632523697536]
大言語モデル(LLM)は臨床シナリオにおいて顕著な機能を示した。
我々はEvidence-Based Medicine(EBM)プロセスに準拠した新しいフレームワークであるMed-R2を紹介する。
実験の結果, Med-R2はバニラRAG法よりも14.74%改善し, 微調整法に比べて3.32%向上した。
論文 参考訳(メタデータ) (2025-01-21T04:40:43Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。