論文の概要: Can Large Language Models Self-Correct in Medical Question Answering? An Exploratory Study
- arxiv url: http://arxiv.org/abs/2604.00261v2
- Date: Thu, 02 Apr 2026 14:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.36236
- Title: Can Large Language Models Self-Correct in Medical Question Answering? An Exploratory Study
- Title(参考訳): 医学的質問応答における大規模言語モデルの自己補正は可能か? : 探索的研究
- Authors: Zaifu Zhan, Mengyuan Cui, Rui Zhang,
- Abstract要約: 大言語モデル(LLM)は医学的質問応答(医学的QA)において高いパフォーマンスを達成している
チェーン・オブ・シークレット(CoT)のプロンプトは、明確な中間的推論を引き出すことによって、さらに改善された。
自己回帰的プロンプトは、LLMに対して、自身の推論を批判し、修正するよう促すことにより、モデルの信頼性を高めると広く主張されている。
- 参考スコア(独自算出の注目度): 10.405961618570847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved strong performance on medical question answering (medical QA), and chain-of-thought (CoT) prompting has further improved results by eliciting explicit intermediate reasoning; meanwhile, self-reflective (self-corrective) prompting has been widely claimed to enhance model reliability by prompting LLMs to critique and revise their own reasoning, yet its effectiveness in safety-critical medical settings remains unclear. In this work, we conduct an exploratory analysis of self-reflective reasoning for medical multiple-choice question answering: using GPT-4o and GPT-4o-mini, we compare standard CoT prompting with an iterative self-reflection loop and track how predictions evolve across reflection steps on three widely used medical QA benchmarks (MedQA, HeadQA, and PubMedQA). We analyze whether self-reflection leads to error correction, error persistence, or the introduction of new errors. Our results show that self-reflective prompting does not consistently improve accuracy and its impact is highly dataset- and model-dependent: it yields modest gains on MedQA but provides limited or negative benefits on HeadQA and PubMedQA, and increasing the number of reflection steps does not guarantee better performance. These findings highlight a gap between reasoning transparency and reasoning correctness, suggesting that self-reflective reasoning is better viewed as an analytical tool for understanding model behavior rather than a standalone solution for improving medical QA reliability.
- Abstract(参考訳): 大きな言語モデル(LLM)は、医学的質問応答(医学的QA)において高いパフォーマンスを達成しており、チェーン・オブ・シンクレット(CoT)プロンプトは、明確な中間的推論を導き、さらに改善した。
本稿では, GPT-4o と GPT-4o-mini を用いて, 反復的自己回帰ループによる標準 CoT のプロンプトと, 広く使用されている3つの医療QAベンチマーク(MedQA, HeadQA, PubMedQA)の反射過程における予測の進化の追跡を行う。
自己回帰がエラー訂正やエラーの持続性,あるいは新たなエラーの発生につながるかどうかを解析する。
この結果から,自己反射的プロンプトは精度を一定に向上せず,その影響はデータセットに依存しやすく,MedQAに対して緩やかな利得をもたらすが,HeadQAやPubMedQAには限定的あるいは負の利益をもたらし,反射ステップの増加は性能の向上を保証しないことがわかった。
これらの知見は、推論の透明性と推論の正しさのギャップを浮き彫りにしており、医学的QA信頼性を向上させるためのスタンドアロンソリューションではなく、モデル行動を理解するための分析ツールとして、自己反射的推論の方が優れていることを示唆している。
関連論文リスト
- MedCausalX: Adaptive Causal Reasoning with Self-Reflection for Trustworthy Medical Vision-Language Models [10.466505116993451]
既存の医療連鎖モデルには因果推論を表現・強制するための明確なメカニズムが欠如している。
MedCausalXは医療用VLMの因果推論チェーンを明示的にモデル化したエンドツーエンドフレームワークである。
我々は,MedCausalXが常に最先端の手法より優れ,診断の整合性は+5.4ポイント向上し,幻覚は10ポイント以上減少し,最上位の空間接地IoUに達することを示す。
論文 参考訳(メタデータ) (2026-03-24T11:28:15Z) - Recursive Think-Answer Process for LLMs and VLMs [54.52289112197118]
R-TAP(Recursive Think-Answer Process)を提案する。
R-TAPにより、モデルは反復的推論サイクルに参加し、より正確な答えを生成することができる。
R-TAP強化モデルが従来のシングルパス法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-03-02T17:20:10Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Self-MedRAG: a Self-Reflective Hybrid Retrieval-Augmented Generation Framework for Reliable Medical Question Answering [39.146761527401424]
Self-MedRAGは、臨床推論の反復的仮説検証プロセスを模倣するために設計された自己反射型ハイブリッドフレームワークである。
Sparse(BM25)とReciprocal Rank Fusion(Reciprocal Rank Fusion)による高密度(Contriever)レトリバーを組み合わせたハイブリッド検索戦略を統合している。
ジェネレータを使用して、支持する合理性で回答を生成し、軽量な自己回帰モジュールで評価する。
論文 参考訳(メタデータ) (2026-01-08T02:56:04Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - MedReflect: Teaching Medical LLMs to Self-Improve via Reflective Correction [23.71420855072473]
MedReflectは、医師のようなリフレクティブ思考モードで、大きな言語モデルに刺激を与えるように設計されたフレームワークである。
MedReflectは費用効率の良い医療データセット構築を可能にする。
以上の結果から, LLM が自己反射と自己改善によって, 専門的な医療問題の解決を学べることを示す。
論文 参考訳(メタデータ) (2025-10-04T06:00:48Z) - AdaThink-Med: Medical Adaptive Thinking with Uncertainty-Guided Length Calibration [4.33177021777927]
本稿では,医療推論モデルにおける適応的思考能力の向上を目的としたエンドツーエンドフレームワークであるAdaThink-Medを提案する。
AdaThink-Med はまず各質問に対して複数の候補出力を生成し、各候補の正しさと不確実性を評価し、不確実性誘導長キャリブレーションモジュールを用いて問題を推定する。
6つの公開医療QAベンチマークでは、AdaThink-Medは最小限の劣化で性能を維持しながら平均6.4倍の長さの縮小を実現している。
論文 参考訳(メタデータ) (2025-09-29T10:13:55Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。