論文の概要: PubMed Reasoner: Dynamic Reasoning-based Retrieval for Evidence-Grounded Biomedical Question Answering
- arxiv url: http://arxiv.org/abs/2603.27335v1
- Date: Sat, 28 Mar 2026 16:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.908843
- Title: PubMed Reasoner: Dynamic Reasoning-based Retrieval for Evidence-Grounded Biomedical Question Answering
- Title(参考訳): PubMed Reasoner: バイオメディカル質問応答の動的推論に基づく検索
- Authors: Yiqing Zhang, Xiaozhong Liu, Fabricio Murai,
- Abstract要約: バイオメディカルQA剤PubMed Reasonerについて紹介する。
自己批判的なクエリ改善は、PubMedクエリを強化するために、カバレッジ、アライメント、冗長性に関するMeSH用語を評価する。
十分な証拠が収集されるまで 記事はバッチで処理される
Evidence-grounded response generation(英語版)は明示的な引用を伴う回答を生成する。
- 参考スコア(独自算出の注目度): 12.717987334814692
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Trustworthy biomedical question answering (QA) systems must not only provide accurate answers but also justify them with current, verifiable evidence. Retrieval-augmented approaches partially address this gap but lack mechanisms to iteratively refine poor queries, whereas self-reflection methods kick in only after full retrieval is completed. In this context, we introduce PubMed Reasoner, a biomedical QA agent composed of three stages: self-critic query refinement evaluates MeSH terms for coverage, alignment, and redundancy to enhance PubMed queries based on partial (metadata) retrieval; reflective retrieval processes articles in batches until sufficient evidence is gathered; and evidence-grounded response generation produces answers with explicit citations. PubMed Reasoner with a GPT-4o backbone achieves 78.32% accuracy on PubMedQA, slightly surpassing human experts, and showing consistent gains on MMLU Clinical Knowledge. Moreover, LLM-as-judge evaluations prefer our responses across: reasoning soundness, evidence grounding, clinical relevance, and trustworthiness. By orchestrating retrieval-first reasoning over authoritative sources, our approach provides practical assistance to clinicians and biomedical researchers while controlling compute and token costs.
- Abstract(参考訳): 信頼できるバイオメディカル質問応答(QA)システムは、正確な答えを提供するだけでなく、現在の検証可能な証拠を正当化しなければならない。
Retrieval-augmentedアプローチは、このギャップに部分的に対処するが、不適切なクエリを反復的に洗練するメカニズムが欠如している。
自己批判的クエリリファインメントは、部分的(メタメタ)検索に基づくPubMedクエリを向上させるために、カバレッジ、アライメント、冗長性のMeSH項を評価する。
GPT-4oのバックボーンを持つPubMed Reasonerは、PubMedQAで78.32%の精度を達成し、人間の専門家をわずかに上回り、MMLU臨床知識で一貫した利得を示している。
さらに, LLM-as-judge の評価では, 推理性, 根拠, 臨床関連性, 信頼性など, さまざまな反応が好まれている。
提案手法は,権威ソースに対する検索優先推論を編成することにより,計算コストとトークンコストを制御しながら,臨床医やバイオメディカル研究者に実用的な支援を提供する。
関連論文リスト
- Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - Self-MedRAG: a Self-Reflective Hybrid Retrieval-Augmented Generation Framework for Reliable Medical Question Answering [39.146761527401424]
Self-MedRAGは、臨床推論の反復的仮説検証プロセスを模倣するために設計された自己反射型ハイブリッドフレームワークである。
Sparse(BM25)とReciprocal Rank Fusion(Reciprocal Rank Fusion)による高密度(Contriever)レトリバーを組み合わせたハイブリッド検索戦略を統合している。
ジェネレータを使用して、支持する合理性で回答を生成し、軽量な自己回帰モジュールで評価する。
論文 参考訳(メタデータ) (2026-01-08T02:56:04Z) - MedTrust-RAG: Evidence Verification and Trust Alignment for Biomedical Question Answering [21.855579328680246]
MedTrust-Guided Iterative RAGは,医療用QAにおける事実整合性と幻覚を高めるためのフレームワークである。
第一に、検索された医療文書に、すべての生成されたコンテンツを明示的に根拠付けることを要求することにより、引用認識推論を強制する。
第2に、検証エージェントが証拠の妥当性を評価する反復的な検索検証プロセスを採用する。
論文 参考訳(メタデータ) (2025-10-16T07:59:11Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Decide less, communicate more: On the construct validity of end-to-end fact-checking in medicine [59.604255567812714]
我々は、専門家が医療証拠を合成することによって、ソーシャルメディアからの真の主張を検証する方法を示す。
臨床試験の形で、野生の主張と科学的証拠を結びつける困難さ。
我々は,ファクトチェックは対話型コミュニケーション問題としてアプローチし,評価すべきであると主張している。
論文 参考訳(メタデータ) (2025-06-25T22:58:08Z) - Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs [15.61511109105186]
大型言語モデル (LLM) は医学的知識が豊富であるが、幻覚や不正確な引用の傾向にある。
Retrieval Augmented Generationのような現在の手法は、ソース文書の回答を根拠にすることで、これらの問題に部分的に対処する。
我々は,LLMの信頼性と説明可能性を高めるために,新しい原子ファクトチェックフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-30T17:33:07Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。
生体画像検査における解釈可能性と精度を高めるように設計されている。
4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文 参考訳(メタデータ) (2024-12-18T11:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。