論文の概要: Can Large Language Models Match the Conclusions of Systematic Reviews?
- arxiv url: http://arxiv.org/abs/2505.22787v1
- Date: Wed, 28 May 2025 18:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.492422
- Title: Can Large Language Models Match the Conclusions of Systematic Reviews?
- Title(参考訳): 大規模言語モデルは体系的レビューの結論に一致するか?
- Authors: Christopher Polzak, Alejandro Lozano, Min Woo Sun, James Burgess, Yuhui Zhang, Kevin Wu, Serena Yeung-Levy,
- Abstract要約: 我々は、大言語モデル(LLM)は、同じ研究にアクセスできると、臨床専門家が書いた体系的なレビューの結論に一致するだろうか?
MedEvidenceでは、推論、非推論、医療スペシャリスト、さまざまなサイズ(7B-700Bから)のモデルを含む24のLCMをベンチマークします。
MedEvidenceでは、推論が必ずしも性能を向上しておらず、より大規模なモデルでは常に大きな利得が得られず、知識に基づく微調整は精度を低下させる。
- 参考スコア(独自算出の注目度): 43.27182445778988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic reviews (SR), in which experts summarize and analyze evidence across individual studies to provide insights on a specialized topic, are a cornerstone for evidence-based clinical decision-making, research, and policy. Given the exponential growth of scientific articles, there is growing interest in using large language models (LLMs) to automate SR generation. However, the ability of LLMs to critically assess evidence and reason across multiple documents to provide recommendations at the same proficiency as domain experts remains poorly characterized. We therefore ask: Can LLMs match the conclusions of systematic reviews written by clinical experts when given access to the same studies? To explore this question, we present MedEvidence, a benchmark pairing findings from 100 SRs with the studies they are based on. We benchmark 24 LLMs on MedEvidence, including reasoning, non-reasoning, medical specialist, and models across varying sizes (from 7B-700B). Through our systematic evaluation, we find that reasoning does not necessarily improve performance, larger models do not consistently yield greater gains, and knowledge-based fine-tuning degrades accuracy on MedEvidence. Instead, most models exhibit similar behavior: performance tends to degrade as token length increases, their responses show overconfidence, and, contrary to human experts, all models show a lack of scientific skepticism toward low-quality findings. These results suggest that more work is still required before LLMs can reliably match the observations from expert-conducted SRs, even though these systems are already deployed and being used by clinicians. We release our codebase and benchmark to the broader research community to further investigate LLM-based SR systems.
- Abstract(参考訳): システマティック・レビュー(SR)は、専門家が個々の研究で証拠を要約し分析し、特定のトピックについての洞察を提供するものである。
学術論文の指数関数的成長を考えると、SR生成を自動化するために大きな言語モデル(LLM)を使うことへの関心が高まっている。
しかし、LLMが複数の文書にまたがって証拠や理由を批判的に評価し、ドメインの専門家と同じ熟練度でレコメンデーションを行う能力は、いまだに不十分である。
LLMは、同じ研究にアクセスできると、臨床専門家が書いた体系的なレビューの結論に一致するだろうか?
この問題を探索するために、100のSRから得られたベンチマークペアリングのMedEvidenceと、それらに基づく研究を紹介する。
MedEvidenceでは、推論、非推論、医療専門家、さまざまなサイズ(7B-700Bから)のモデルを含む24のLCMをベンチマークします。
体系的な評価により、推論は必ずしも性能を向上せず、より大規模なモデルでは常に大きな利得が得られず、知識に基づく微調整はMedEvidenceの精度を低下させることがわかった。
パフォーマンスはトークンの長さが増加するにつれて低下する傾向にあり、その反応は自信過剰であり、人間の専門家とは対照的に、すべてのモデルは低品質な発見に対する科学的懐疑的でないことを示している。
これらの結果は、LLMが専門家が運用するSRの観測に確実に適合する前には、まだ多くの作業が必要であることを示唆している。
我々は、LLMベースのSRシステムをさらに調査するため、コードベースとベンチマークをより広範な研究コミュニティにリリースします。
関連論文リスト
- Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。
textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - EvidenceMap: Learning Evidence Analysis to Unleash the Power of Small Language Models for Biomedical Question Answering [29.70354593617791]
バイオメディカル・エビデンス・マップ(EvidenceMap)は,バイオメディカル・エビデンス(バイオメディカル・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・マップ(バイオメディカル・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・エビデンス・マップ(バイオメディカル・エビデンス・エビデンス・エビデンス)を学習するための言語モデルである。
本手法は,66Mパラメータのみを微調整したモデルによるエビデンス解析を行い,基準ベースの品質と精度の5.7%,8B LLMのRAG法を19.9%上回った。
論文 参考訳(メタデータ) (2025-01-22T09:27:11Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。
LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。
COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - Evaluating the Effectiveness of Retrieval-Augmented Large Language
Models in Scientific Document Reasoning [0.0]
LLM(Large Language Model)は、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。
Retrieval-augmented LLMは、外部データソースから関連する情報を取得することによって、これらの問題を解決するための非パラメトリックなアプローチを提供する。
我々はこれらのモデルを科学的文書推論タスクで行う能力において批判的に評価する。
論文 参考訳(メタデータ) (2023-11-07T21:09:57Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。