論文の概要: Introducing Answered with Evidence -- a framework for evaluating whether LLM responses to biomedical questions are founded in evidence
- arxiv url: http://arxiv.org/abs/2507.02975v1
- Date: Mon, 30 Jun 2025 18:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.489273
- Title: Introducing Answered with Evidence -- a framework for evaluating whether LLM responses to biomedical questions are founded in evidence
- Title(参考訳): バイオメディカル質問に対するLCM応答が証拠として確立されているかどうかを評価するためのフレームワーク
- Authors: Julian D Baldwin, Christina Dinh, Arjun Mukerji, Neil Sanghavi, Saurabh Gombar,
- Abstract要約: 生物医学的質問応答のための大規模言語モデル (LLMs) は、それらの応答の正確性と明確なサポートに関する懸念を提起する。
我々は,(1)アレクサンドリア,fka the Atropos Evidence Library,新しい観察研究に基づくRAGシステム,(2)PubMedに基づく検索強化システム(システムとパープレキシティ)を比較パイプラインで分析した。
PubMedをベースとしたシステムでは,約44%の質問に対してエビデンス支援の回答が得られたが,新たなエビデンスソースでは約50%の回答が得られた。
- 参考スコア(独自算出の注目度): 1.3250161978024673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing use of large language models (LLMs) for biomedical question answering raises concerns about the accuracy and evidentiary support of their responses. To address this, we present Answered with Evidence, a framework for evaluating whether LLM-generated answers are grounded in scientific literature. We analyzed thousands of physician-submitted questions using a comparative pipeline that included: (1) Alexandria, fka the Atropos Evidence Library, a retrieval-augmented generation (RAG) system based on novel observational studies, and (2) two PubMed-based retrieval-augmented systems (System and Perplexity). We found that PubMed-based systems provided evidence-supported answers for approximately 44% of questions, while the novel evidence source did so for about 50%. Combined, these sources enabled reliable answers to over 70% of biomedical queries. As LLMs become increasingly capable of summarizing scientific content, maximizing their value will require systems that can accurately retrieve both published and custom-generated evidence or generate such evidence in real time.
- Abstract(参考訳): 生物医学的質問応答における大規模言語モデル (LLMs) の利用の増加は、それらの応答の正確性と明確なサポートに関する懸念を提起する。
そこで本稿では, LLM による回答が科学的文献に根ざされているかどうかを評価するためのフレームワークである Answered with Evidence を提案する。
我々は,(1)アレクサンドリア,fka the Atropos Evidence Library,(2)新しい観察研究に基づくRAGシステム,(2)PubMedに基づく検索強化システム(システムとパープレキシティ)を比較パイプラインで分析した。
PubMedをベースとしたシステムでは,約44%の質問に対してエビデンス支援の回答が得られたが,新たなエビデンスソースでは約50%の回答が得られた。
これらの情報源を組み合わせることで、バイオメディカルクエリの70%以上に対する信頼性の高い回答を可能にした。
LLMが科学的な内容を要約する能力が増すにつれて、その価値を最大化するためには、発行された証拠とカスタム生成された証拠の両方を正確に回収するシステムや、そのような証拠をリアルタイムで生成するシステムが必要である。
関連論文リスト
- Enhancing LLM Generation with Knowledge Hypergraph for Evidence-Based Medicine [22.983780823136925]
エビデンスベースの医療(EBM)は、医療における大規模言語モデル(LLM)の適用において重要な役割を担っている。
本稿では,複数の情報源から散在する証拠をLCMを用いて収集し,知識ハイパーグラフに基づく証拠管理モデルを提案する。
本手法は,医療クイズ,幻覚検出,意思決定支援など,EMMに関心のあるアプリケーション領域において,既存のRAG技術よりも優れている。
論文 参考訳(メタデータ) (2025-03-18T09:17:31Z) - Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track [18.3893773380282]
幻覚や折り畳みは、生物医学領域で大きな言語モデル(LLM)を使用する際の重要な課題の1つである。
不正確性は、医学的質問への回答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。
論文 参考訳(メタデータ) (2024-11-27T05:43:00Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models [46.05020842978823]
大規模言語モデル(LLM)はこの複雑なデータランドスケープをナビゲートする強力なツールとして登場した。
RAGGEDは、知識統合と仮説生成を伴う研究者を支援するために設計された包括的なワークフローである。
論文 参考訳(メタデータ) (2024-07-17T07:44:18Z) - How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions [0.0]
大規模言語モデル(LLM)が最近,ユーザの質問に対するオンライン回答の主要なソースになっている。
雄弁な答えを提供する能力があるにもかかわらず、その正確さと信頼性は重大な課題となる。
本稿では, バイオメディカル検索強化生成システム(RAG)を導入し, 生成した応答の信頼性を高める。
論文 参考訳(メタデータ) (2024-07-06T09:10:05Z) - Answering real-world clinical questions using large language model based systems [2.2605659089865355]
大規模言語モデル(LLM)は、出版された文献を要約するか、実世界データ(RWD)に基づいた新しい研究を生成することによって、両方の課題に対処できる可能性がある。
臨床50問に回答する5つのLCMベースのシステムについて検討し,9名の医師に関連性,信頼性,行動性について検討した。
論文 参考訳(メタデータ) (2024-06-29T22:39:20Z) - De-identification of clinical free text using natural language
processing: A systematic review of current approaches [48.343430343213896]
自然言語処理は、その非識別プロセスの自動化の可能性を繰り返し示してきた。
本研究の目的は,過去13年間に臨床自由テキストの非識別化が進展したことを示す体系的な証拠を提供することである。
論文 参考訳(メタデータ) (2023-11-28T13:20:41Z) - Clinfo.ai: An Open-Source Retrieval-Augmented Large Language Model
System for Answering Medical Questions using Scientific Literature [44.715854387549605]
我々はClinfo.aiをリリースした。Clinfo.aiはオープンソースのWebアプリケーションで、動的に検索された科学的文献に基づいて臨床上の質問に答える。
我々は PubMedRS-200 上で Clinfo.ai および他の公開 OpenQA システムのベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2023-10-24T19:43:39Z) - Generating Explanations in Medical Question-Answering by Expectation
Maximization Inference over Evidence [33.018873142559286]
本稿では,医療用QAシステムによって予測される回答に対して,自然言語による説明を生成するための新しい手法を提案する。
本システムは,説明生成過程における説明の質を高めるために,医学教科書から知識を抽出する。
論文 参考訳(メタデータ) (2023-10-02T16:00:37Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Medical Question Understanding and Answering with Knowledge Grounding
and Semantic Self-Supervision [53.692793122749414]
本稿では,知識基盤とセマンティック・セルフスーパービジョンを備えた医療質問理解・回答システムについて紹介する。
我々のシステムは、まず、教師付き要約損失を用いて、長い医学的、ユーザによる質問を要約するパイプラインである。
システムはまず、信頼された医療知識ベースから要約されたユーザ質問とFAQとをマッチングし、対応する回答文書から一定の数の関連文を検索する。
論文 参考訳(メタデータ) (2022-09-30T08:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。