論文の概要: Investigating LLM Capabilities on Long Context Comprehension for Medical Question Answering
- arxiv url: http://arxiv.org/abs/2510.18691v1
- Date: Tue, 21 Oct 2025 14:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.74113
- Title: Investigating LLM Capabilities on Long Context Comprehension for Medical Question Answering
- Title(参考訳): 医学的質問に対するLLMの長期理解能力の検討
- Authors: Feras AlMannaa, Talia Tseriotou, Jenny Chim, Maria Liakata,
- Abstract要約: 本研究は,長期コンテキスト(LC)における臨床関連QAに対するLCMの理解能力について,初めて検討したものである。
包括的評価は、関連性、LLMモデル、タスクの定式化における各種機能およびデータセットに基づく、幅広いコンテンツ包摂的設定にまたがる。
本稿では,医学的LC理解に対するRAGの効果について検討し,一対多文書推論データセットの最適設定を明らかにするとともに,LCよりも優れたRAG戦略を示す。
- 参考スコア(独自算出の注目度): 11.557033367530053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study is the first to investigate LLM comprehension capabilities over long-context (LC) medical QA of clinical relevance. Our comprehensive assessment spans a range of content-inclusion settings based on their relevance, LLM models of varying capabilities and datasets across task formulations, revealing insights on model size effects, limitations, underlying memorization issues and the benefits of reasoning models. Importantly, we examine the effect of RAG on medical LC comprehension, uncover best settings in single versus multi-document reasoning datasets and showcase RAG strategies for improvements over LC. We shed light into some of the evaluation aspects using a multi-faceted approach. Our qualitative and error analyses address open questions on when RAG is beneficial over LC, revealing common failure cases.
- Abstract(参考訳): 本研究は,長期コンテキスト(LC)における臨床関連QAに対するLCMの理解能力について,初めて検討したものである。
我々の包括的評価は、その関連性、タスクの定式化にまたがる様々な機能とデータセットのLLMモデル、モデルサイズ効果、制限、基礎となる記憶問題、推論モデルの利点に基づく様々なコンテンツ包摂的設定にまたがる。
重要なことは、RAGが医療LCの理解に及ぼす影響、単一とマルチドキュメント推論データセットの最適設定を明らかにすること、LCよりも改善するためのRAG戦略を示すことである。
我々は多面的アプローチを用いて評価のいくつかの側面に光を当てた。
我々の定性的および誤り分析は、LCよりもRAGがいつ有効かというオープンな疑問に対処し、よくある障害事例を明らかにした。
関連論文リスト
- Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving [18.815592287807394]
大規模言語モデル (LLM) は様々な医学ベンチマークで顕著な性能を示した。
しかし、その能力は様々な認知レベルにわたって過小評価されている。
医療領域におけるLCMの評価のための多認知レベル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:07:33Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。