論文の概要: EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning
- arxiv url: http://arxiv.org/abs/2601.03471v1
- Date: Tue, 06 Jan 2026 23:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.09449
- Title: EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning
- Title(参考訳): EpiQAL: 拡張アライメントと推論のための疫学的質問応答における大規模言語モデルのベンチマーク
- Authors: Mingyang Wei, Dehai Min, Zewen Liu, Yuzhang Xie, Guanchen Wu, Carl Yang, Max S. Y. Lau, Qi He, Lu Cheng, Wei Jin,
- Abstract要約: EpiQALは、様々な疾患にまたがる疫学的問題に対する最初の診断基準である。
構築には、専門家が設計した分類指導、マルチモデル検証、検索に基づく難易度制御が組み合わされている。
- 参考スコア(独自算出の注目度): 24.283535906312448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable epidemiological reasoning requires synthesizing study evidence to infer disease burden, transmission dynamics, and intervention effects at the population level. Existing medical question answering benchmarks primarily emphasize clinical knowledge or patient-level reasoning, yet few systematically evaluate evidence-grounded epidemiological inference. We present EpiQAL, the first diagnostic benchmark for epidemiological question answering across diverse diseases, comprising three subsets built from open-access literature. The subsets respectively evaluate text-grounded factual recall, multi-step inference linking document evidence with epidemiological principles, and conclusion reconstruction with the Discussion section withheld. Construction combines expert-designed taxonomy guidance, multi-model verification, and retrieval-based difficulty control. Experiments on ten open models reveal that current LLMs show limited performance on epidemiological reasoning, with multi-step inference posing the greatest challenge. Model rankings shift across subsets, and scale alone does not predict success. Chain-of-Thought prompting benefits multi-step inference but yields mixed results elsewhere. EpiQAL provides fine-grained diagnostic signals for evidence grounding, inferential reasoning, and conclusion reconstruction.
- Abstract(参考訳): 信頼性の高い疫学的推論には、病気の負担、伝達ダイナミクス、集団レベルでの介入効果を予測するための研究証拠の合成が必要である。
既存の医療質問応答ベンチマークは、主に臨床知識や患者レベルの推論に重点を置いているが、エビデンスに基づく疫学的推測を体系的に評価することは少ない。
各種疾患にまたがる疫学的質問に対する最初の診断基準であるEpiQALについて,オープンアクセス文献から構築した3つのサブセットについて紹介する。
各サブセットは, 文書証拠と疫学の原則を結びつける多段階推論と, 議論部による結論の再構築をそれぞれ評価した。
構築には、専門家が設計した分類指導、マルチモデル検証、検索に基づく難易度制御が組み合わされている。
10個のオープンモデルの実験では、現在のLSMは疫学的推論において限られた性能を示し、多段階推論は最大の課題であることが示された。
モデルランキングはサブセット間でシフトし、スケールだけでは成功を予測できない。
Chain-of-Thoughtプロンプトは多段階推論の恩恵を受けるが、別の場所では混合結果をもたらす。
EpiQALは、証拠の根拠、推論推論、結論の再構築のためのきめ細かい診断信号を提供する。
関連論文リスト
- PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis [13.503111478218434]
PathFoundは、病理診断におけるエビデンス検索推論を支援するために設計されたエージェントマルチモーダルモデルである。
PathFoundは様々な臨床シナリオで最先端の診断性能を達成する。
論文 参考訳(メタデータ) (2025-12-29T15:34:27Z) - Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation [52.7583577508452]
MLLM(Multimodal Large Language Models)は自然画像推論において顕著な進歩を遂げている。
医用画像におけるその潜在性は、特に臨床解剖学的外科画像では未発見のままである。
これらの課題は、従来のSupervised Fine-Tuning戦略の有効性を制限する。
論文 参考訳(メタデータ) (2025-12-22T16:06:36Z) - Skin-R1: Toward Trustworthy Clinical Reasoning for Dermatological Diagnosis [27.666376727163073]
SkinR1は、深い教科書に基づく推論と強化学習(RL)の広範な一般化能力を組み合わせた新しい皮膚視覚言語モデル(VLM)である。
まず、高忠実度、階層認識、差動診断(DDx)インフォームド・トラジェクトリを合成する教科書ベースの推論生成器を設計する。
第2に,教師付き微調整(SFT)に構築された軌道を利用して,基礎的推論能力を持つモデルを実現する。
論文 参考訳(メタデータ) (2025-11-18T20:38:36Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Revealing Multimodal Causality with Large Language Models [80.95511545591107]
非構造化データからマルチモーダル因果発見のための新しいフレームワークであるMLLM-CDを提案する。
本研究は,(1)真のマルチモーダル因子を同定する新しいコントラッシブ・ファクター発見モジュール,(2)発見要因間の因果関係を推測する統計的因果構造発見モジュール,(3)発見結果を洗練するための反復的マルチモーダル・カウンターファクト・推論モジュールの3つの重要な構成要素から構成される。
合成と実世界の両方のデータセットに対する大規模な実験は、提案したMLLM-CDの有効性を実証している。
論文 参考訳(メタデータ) (2025-09-22T13:45:17Z) - Bridging the Gap in Ophthalmic AI: MM-Retinal-Reason Dataset and OphthaReason Model toward Dynamic Multimodal Reasoning [15.73558614478585]
本稿では,眼科用マルチモーダルデータセットMM-Retinal-Reasonについて紹介する。
MM-Retinal-Reasonに基づいて,第1の眼科特異的多モード推論モデルであるOphthaReasonを提案する。
本モデルは,基礎的および複雑な推論タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-22T06:47:30Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning [27.827761004918106]
この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。
500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
論文 参考訳(メタデータ) (2025-01-11T07:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。