論文の概要: HypothesisMed: Inference-Time Answer Fusion and Structured Hypothesis-Space Reporting for Biomedical Question Answering
- arxiv url: http://arxiv.org/abs/2606.00971v1
- Date: Sun, 31 May 2026 03:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.009449
- Title: HypothesisMed: Inference-Time Answer Fusion and Structured Hypothesis-Space Reporting for Biomedical Question Answering
- Title(参考訳): バイオメディカル質問応答のための推論時間アンサーフュージョンと構造化仮説空間レポート
- Authors: Md Motaleb Hossen Manik, Ge Wang,
- Abstract要約: 本稿では,バイオメディカル質問応答のための推論時間信頼性パイプラインであるPhythesisMedを提案する。
直接、チェーン・オブ・シント、仮説Med-v3プロンプトと解答融合を組み合わせたものだ。
MedQA, MedMCQA, PubMedQAにおいて, データセット1,000例を用いてQwen2.5-7B, Phi-4-mini, DeepSeek-R1-32B, BioMistral-7Bを評価した。
- 参考スコア(独自算出の注目度): 6.396911723204044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical question answering with large language models is commonly evaluated using answer accuracy, but answer accuracy alone does not indicate whether a model can produce parseable outputs, follow structured reliability instructions, recognize weak answer spaces, or avoid confident incorrect commitments. This paper presents HypothesisMed, an inference-time reliability pipeline for biomedical multiple-choice question answering. It combines direct, chain-of-thought, HypothesisMed-v3 prompting, and answer fusion. The final answer is selected by fusion, while HypothesisMed-v3 supplies SPACE labels and confidence information. SPACE labels mark the answer space as VALID, INCOMPLETE, or CONTRADICTED. We evaluate Qwen2.5-7B, Phi-4-mini, DeepSeek-R1-32B, and BioMistral-7B on MedQA, MedMCQA, and PubMedQA using 1,000 examples per dataset. The pipeline improves weighted accuracy over each model's best direct or chain-of-thought baseline while increasing parse and SPACE coverage. We also scale evaluation to Qwen2.5-7B and Phi-4-mini using 10,183 examples per model. Fusion improves Phi-4-mini accuracy from 0.4296 to 0.5192, while Qwen2.5-7B chain-of-thought remains slightly higher in answer accuracy. However, Qwen2.5-7B fusion achieves complete parse and SPACE coverage with much lower false commitment. A 12,000-example SPACE stress test shows answer-space diagnosis remains difficult, with SPACE accuracy of 0.3074 for Qwen2.5-7B and 0.4168 for Phi-4-mini. These results show that answer accuracy, parseability, structured reliability reporting, calibration behavior, and false-commitment behavior are separable capabilities. The main contribution is not a universal state-of-the-art claim, but a reproducible inference-time framework for evaluating biomedical question answering models as auditable workflow components under structured reliability constraints.
- Abstract(参考訳): 大規模言語モデルを用いたバイオメディカル質問応答は、解答精度を用いて一般的に評価されるが、解答精度だけでは、モデルが解析可能な出力を生成したり、構造化された信頼性指示に従ったり、弱い解答空間を認識したり、不確実なコミットメントを避けることができるかどうかを示さない。
本稿では,バイオメディカルな複数選択質問応答のための推論時間信頼性パイプラインであるPhythesisMedを提案する。
直接、チェーン・オブ・シント、仮説Med-v3プロンプトと解答融合を組み合わせたものだ。
最終回答は融合によって選択され、PhythesisMed-v3はSPACEラベルと信頼性情報を提供する。
SPACEラベルは、答え空間をVALID、INCOMPLETE、ConTRADICTEDとマークする。
MedQA, MedMCQA, PubMedQAにおいて, データセット1,000例を用いてQwen2.5-7B, Phi-4-mini, DeepSeek-R1-32B, BioMistral-7Bを評価した。
このパイプラインは、パースとSPACEカバレッジを増大させながら、各モデルの最高のダイレクトまたはチェーンのベースラインよりも重み付け精度を向上させる。
また,Qwen2.5-7BとPhi-4-miniを1モデルあたり10,183例で評価した。
融合はPhi-4-miniの精度を 0.4296 から 0.5192 に改善するが、Qwen2.5-7B の連鎖は答えの精度がわずかに高いままである。
しかし、Qwen2.5-7B融合は完全なパースとSPACEカバレッジを達成し、偽のコミットメントははるかに低い。
12,000サンプルのSPACEストレステストでは、Qwen2.5-7BのSPACE精度は0.3074、Phi-4-miniの0.4168である。
これらの結果は,回答の正確性,解析可能性,構造化された信頼性レポート,校正動作,偽コミット動作が分離可能であることを示す。
主な貢献は、普遍的な最先端のクレームではなく、構造化された信頼性制約の下で監査可能なワークフローコンポーネントとしてバイオメディカル質問応答モデルを評価する再現可能な推論時間フレームワークである。
関連論文リスト
- Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework [0.0]
医学質問応答における大規模言語モデル(LLM)は、平均的精度以上の要求を満たす。
Redditのようなオンライン健康コミュニティは、何百万人ものユーザーにとって、医療情報の主要な情報源となっている。
本稿では,小規模かつローカルにデプロイ可能なオープンウェイトLCMを医療質問応答上で評価するための,実用的なオープンソース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T08:56:15Z) - Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment [0.0]
小規模のオープンソース言語モデルは、低リソース環境でのヘルスケアアプリケーションに注目を集めている。
臨床質問応答データセットを用いて,5つのオープンソースモデル(Gemma 2 2B, Phi-3 Mini 3.8B, Llama 3.2 3B, Mistral 7B, Meditron-7B)を評価した。
論文 参考訳(メタデータ) (2026-03-01T04:37:48Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。