Fugu-MT 論文翻訳(概要): LongHealth: A Question Answering Benchmark with Long Clinical Documents

論文の概要: LongHealth: A Question Answering Benchmark with Long Clinical Documents

arxiv url: http://arxiv.org/abs/2401.14490v1
Date: Thu, 25 Jan 2024 19:57:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 16:50:33.287295
Title: LongHealth: A Question Answering Benchmark with Long Clinical Documents
Title（参考訳）: longhealth: 長期臨床文書を用いた質問応答ベンチマーク
Authors: Lisa Adams, Felix Busch, Tianyu Han, Jean-Baptiste Excoffier, Matthieu Ortala, Alexander L\"oser, Hugo JWL. Aerts, Jakob Nikolas Kather, Daniel Truhn, Keno Bressem
Abstract要約: 各種疾患20例を対象とし,LongHealthベンチマークを報告する。このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
参考スコア（独自算出の注目度）: 36.05587855811346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Background: Recent advancements in large language models (LLMs) offer potential benefits in healthcare, particularly in processing extensive patient records. However, existing benchmarks do not fully assess LLMs' capability in handling real-world, lengthy clinical data. Methods: We present the LongHealth benchmark, comprising 20 detailed fictional patient cases across various diseases, with each case containing 5,090 to 6,754 words. The benchmark challenges LLMs with 400 multiple-choice questions in three categories: information extraction, negation, and sorting, challenging LLMs to extract and interpret information from large clinical documents. Results: We evaluated nine open-source LLMs with a minimum of 16,000 tokens and also included OpenAI's proprietary and cost-efficient GPT-3.5 Turbo for comparison. The highest accuracy was observed for Mixtral-8x7B-Instruct-v0.1, particularly in tasks focused on information retrieval from single and multiple patient documents. However, all models struggled significantly in tasks requiring the identification of missing information, highlighting a critical area for improvement in clinical data interpretation. Conclusion: While LLMs show considerable potential for processing long clinical documents, their current accuracy levels are insufficient for reliable clinical use, especially in scenarios requiring the identification of missing information. The LongHealth benchmark provides a more realistic assessment of LLMs in a healthcare setting and highlights the need for further model refinement for safe and effective clinical application. We make the benchmark and evaluation code publicly available.
Abstract（参考訳）: 背景: 大規模言語モデル(LLM)の最近の進歩は、医療、特に広範な患者記録の処理において潜在的な利益をもたらす。しかし、既存のベンチマークでは、実世界の長期臨床データを扱うLLMの能力を十分に評価していない。方法: 様々な疾患にまたがる20の患者を対象とし, それぞれ5,090から6,754の単語を含むlonghealthベンチマークを提示する。このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択質問でLSMに挑戦し、大規模な臨床文書から情報を抽出し解釈するためにLSMに挑戦する。結果: OpenAI の独自かつ費用効率のよい GPT-3.5 Turbo を比較対象として, 最低 16,000 トークンのオープンソース LLM を9 個評価した。その結果,Mixtral-8x7B-Instruct-v0.1では高い精度が得られた。しかし、すべてのモデルは、欠落した情報の識別を必要とするタスクにおいて著しく苦労し、臨床データ解釈の改善のための重要な領域を強調した。結論: LLMは, 長期臨床文書の処理に有意な可能性を示唆するが, 信頼性の高い臨床使用には精度が不十分である。 LongHealthベンチマークは、ヘルスケア環境でのLCMのより現実的な評価を提供し、安全で効果的な臨床応用のためのさらなるモデル改善の必要性を強調している。ベンチマークと評価コードを公開しています。

関連論文リスト

Evaluating LLMs in Medicine: A Call for Rigor, Transparency [2.2445597370194834]
方法: MedQA, MedMCQA, PubMedQA, MMLUを含む広範囲に使用されているベンチマークデータセットを, 厳密さ, 透明性, 臨床シナリオとの関連性についてレビューした。医学雑誌の課題質問などの代替案も分析され、その可能性を偏見のない評価ツールとして特定した。
論文参考訳（メタデータ） (2025-07-11T16:09:25Z)
BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [10.071956824618418]
大規模言語モデル(LLM)は医療応用に大きな期待を持ち、急速に進化している。既存のベンチマークのほとんどは、医療試験スタイルの質問やPubMedから派生したテキストに依存している。 9言語にわたる実世界の臨床データソースから得られた87のタスクからなる総合的なベンチマークBRIDGEを提案する。
論文参考訳（メタデータ） (2025-04-28T04:13:18Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文参考訳（メタデータ） (2024-06-14T11:10:17Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。 EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文参考訳（メタデータ） (2024-02-25T09:41:50Z)
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。 10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文参考訳（メタデータ） (2023-09-14T05:15:01Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。