論文の概要: MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies
- arxiv url: http://arxiv.org/abs/2605.09661v1
- Date: Sun, 10 May 2026 17:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.355859
- Title: MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies
- Title(参考訳): MedMeta: 医学におけるメタアナリシスの総合化におけるLCMのベンチマーク
- Authors: Huy Hoang Ha, Benoit Favre, Francois Portet,
- Abstract要約: 大規模言語モデル(LLM)は、実際のリコールをテストする飽和標準医療ベンチマークを持つ。
MedMetaはLLMが医療メタ分析から結論を出す能力を評価するために設計された最初のベンチマークである。
- 参考スコア(独自算出の注目度): 0.8322112116381115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have saturated standard medical benchmarks that test factual recall, yet their ability to perform higher-order reasoning, such as synthesizing evidence from multiple sources, remains critically under-explored. To address this gap, we introduce MedMeta, the first benchmark designed to evaluate an LLM's ability to generate conclusions from medical meta-analyses using only the abstracts of cited studies. MedMeta comprises 81 meta-analyses from PubMed (2018--2025) and evaluates models using two distinct workflows: a Retrieval-Augmented Generation (Golden-RAG) setting with ground-truth abstracts, and a Parametric-only approach relying on internal knowledge. Our evaluation framework is validated by a well-structured analysis showing our LLM-as-a-judge protocol strongly aligns with human expert ratings, as evidenced by high Pearson's r correlation (0.81) and Bland-Altman analysis revealing negligible systematic bias, establishing it as a reliable proxy for scalable evaluation. Our findings underscore the critical importance of information grounding: the Golden-RAG workflow consistently and significantly outperforms the Parametric-only approach across models. In contrast, the benefits of domain-specific fine-tuning are marginal and largely neutralized when external material is provided. Furthermore, stress tests show that all models, regardless of architecture, fail to identify and reject negated evidence, highlighting a critical vulnerability in current RAG systems. Notably, even under ideal RAG conditions, current LLMs achieve only slightly above-average performance (~2.7/5.0). MedMeta provides a challenging new benchmark for evidence synthesis and demonstrates that for clinical applications, developing robust RAG systems is a more promising direction than model specialization alone.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、実際のリコールをテストするような飽和した標準医療ベンチマークを持っているが、複数の情報源から証拠を合成するなどの高次推論を行う能力は、いまだに過小評価されている。
このギャップに対処するために、引用された研究の要約のみを用いて、医学メタアナリシスから結論を生成するLLMの能力を評価するために設計された最初のベンチマークであるMedMetaを紹介する。
MedMetaはPubMed (2018-2025)から81のメタアナリシスで構成されており、2つの異なるワークフローを使ってモデルを評価する。
我々の評価枠組みは,我々のLCM-as-a-judgeプロトコルが,高いピアソンのr相関(0.81)とBland-Altman分析によって証明されたような,スケーラブルな評価のための信頼性の高いプロキシとして確立された,十分に構造化された分析によって検証された。
この結果から,Golden-RAGワークフローは,モデル間のパラメトリックのみのアプローチよりも一貫して,はるかに優れています。
対照的に、ドメイン固有の微調整の利点は、外部材料が提供される際には、極端に中和される。
さらに、ストレステストでは、アーキテクチャに関わらず、すべてのモデルが否定された証拠を識別および拒否することができず、現在のRAGシステムにおいて重大な脆弱性を浮き彫りにしている。
特に、理想的なRAG条件下であっても、現在のLLMは平均以上の性能(~2.7/5.0)しか達成できない。
MedMetaは、エビデンス合成のための挑戦的な新しいベンチマークを提供し、臨床応用において、堅牢なRAGシステムの開発は、モデル特殊化だけでなく、より有望な方向であることを実証している。
関連論文リスト
- MedRCube: A Multidimensional Framework for Fine-Grained and In-Depth Evaluation of MLLMs in Medical Imaging [31.5409689069707]
本稿では,多次元,細粒度,奥行き評価へのパラダイムシフトを提案する。
我々は33のMLLMをベンチマークし、textitLingshu-32Bでトップレベルのパフォーマンスを実現した。
信頼性を定量化するための信頼性評価サブセットを導入し、ショートカット動作と診断タスク性能の極めて有意な関連を明らかにする。
論文 参考訳(メタデータ) (2026-04-15T11:41:20Z) - EviCare: Enhancing Diagnosis Prediction with Deep Model-Guided Evidence for In-Context Reasoning [62.61394722212386]
EviCareは、大規模言語モデルにディープモデルガイダンスを統合する、コンテキスト内推論フレームワークである。
LLMのみのベースラインと深層モデルのみのベースラインを2つの実世界のEHRベンチマークで連続的に上回っている。
論文 参考訳(メタデータ) (2026-04-12T04:35:14Z) - Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis [49.83108591873481]
EligMetaはエージェントフレームワークで、自動トライアル発見と、資格を意識したメタ分析を統合する。
フレームワークは、目標トライアル間の人口アライメントを反映した類似性に基づく研究重量を計算し、適性基準を構造化する。
論文 参考訳(メタデータ) (2026-04-03T03:18:50Z) - When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。
LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。
本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文 参考訳(メタデータ) (2026-02-27T21:09:43Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering [0.0]
大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
論文 参考訳(メタデータ) (2026-01-21T20:52:48Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Beyond Overall Accuracy: A Psychometric Deep Dive into the Topic-Specific Medical Capabilities of 80 Large Language Models [6.362188639024662]
項目応答理論(IRT)に基づく厳密な評価フレームワークであるtextscMedIRT を紹介する。
80の多種多様な言語モデル (LLMs) から, バランスのとれた1,100のUSMLE準拠のベンチマークで, 新たな回答を期待して収集した。
LLMの潜在モデル能力は質問の難易度や識別と共同で推定し、精度のみよりも安定でニュアンスの高い性能ランキングを得る。
論文 参考訳(メタデータ) (2025-09-29T02:06:13Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。