論文の概要: CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case Reports
- arxiv url: http://arxiv.org/abs/2505.17265v1
- Date: Thu, 22 May 2025 20:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.683359
- Title: CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case Reports
- Title(参考訳): CaseReportBench: 臨床報告における高密度情報抽出のためのLLMベンチマークデータセット
- Authors: Xiao Yu Cindy Zhang, Carlos R. Ferreira, Francis Rossignol, Raymond T. Ng, Wyeth Wasserman, Jian Zhu,
- Abstract要約: IEMに着目したケースレポートの高密度情報抽出のためのエキスパートアノテートデータセットであるCaseReportBenchを紹介する。
我々は、カテゴリ固有のプロンプトやサブヘッダーによるデータ統合のような新しいアプローチを導入し、様々なモデルとプロンプト戦略を評価する。
臨床評価の結果,LSMは症例報告から臨床的に関連性のある詳細を抽出し,稀な疾患の診断と管理を支援することが示唆された。
- 参考スコア(独自算出の注目度): 4.477840500181267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rare diseases, including Inborn Errors of Metabolism (IEM), pose significant diagnostic challenges. Case reports serve as key but computationally underutilized resources to inform diagnosis. Clinical dense information extraction refers to organizing medical information into structured predefined categories. Large Language Models (LLMs) may enable scalable information extraction from case reports but are rarely evaluated for this task. We introduce CaseReportBench, an expert-annotated dataset for dense information extraction of case reports, focusing on IEMs. Using this dataset, we assess various models and prompting strategies, introducing novel approaches such as category-specific prompting and subheading-filtered data integration. Zero-shot chain-of-thought prompting offers little advantage over standard zero-shot prompting. Category-specific prompting improves alignment with the benchmark. The open-source model Qwen2.5-7B outperforms GPT-4o for this task. Our clinician evaluations show that LLMs can extract clinically relevant details from case reports, supporting rare disease diagnosis and management. We also highlight areas for improvement, such as LLMs' limitations in recognizing negative findings important for differential diagnosis. This work advances LLM-driven clinical natural language processing and paves the way for scalable medical AI applications.
- Abstract(参考訳): 内因性代謝異常(Inborn Errors of Metabolism, IEM)を含む希少な疾患は、重大な診断上の課題を引き起こす。
症例報告は、診断を知らせる鍵となるが、計算が不十分なリソースとして機能する。
臨床密度情報抽出は、医療情報を構造化済みのカテゴリーに整理することを指す。
大規模言語モデル(LLM)は、ケースレポートからスケーラブルな情報抽出を可能にするが、このタスクに対して評価されることは滅多にない。
IEMに着目したケースレポートの高密度情報抽出のためのエキスパートアノテートデータセットであるCaseReportBenchを紹介する。
このデータセットを用いて、カテゴリ固有のプロンプトやサブヘッダー付きデータ統合のような新しいアプローチを導入し、様々なモデルを評価し、ストラテジーを誘導する。
ゼロショット・チェーン・オブ・ソート・プロンプトは標準のゼロショット・プロンプトに対してほとんど利点がない。
カテゴリ固有のプロンプトは、ベンチマークとの整合性を改善する。
オープンソースのQwen2.5-7BはGPT-4oより優れている。
臨床評価の結果,LSMは症例報告から臨床的に関連性のある詳細を抽出し,稀な疾患の診断と管理を支援することが示唆された。
また, 鑑別診断に重要な陰性所見の認識におけるLSMsの限界など, 改善すべき領域も強調した。
この研究はLLM駆動の臨床自然言語処理を推進し、スケーラブルな医療AI応用の道を開く。
関連論文リスト
- MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - IP-CRR: Information Pursuit for Interpretable Classification of Chest Radiology Reports [31.359504909372884]
本稿では,放射線学レポートの分類のための解釈可能なフレームワークを提案する。
キーとなる考え方は、大量のレポートから最も情報性の高いクエリの集合を抽出し、これらのクエリとその対応する回答を使用して診断を予測することである。
提案手法の有効性を示すMIMIC-CXRデータセットの実験を行った。
論文 参考訳(メタデータ) (2025-04-30T21:20:05Z) - Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Classifying Cancer Stage with Open-Source Clinical Large Language Models [0.35998666903987897]
オープンソースの臨床大言語モデル(LLMs)は、実世界の病理報告から病理組織学的腫瘍-リンパ節転移(pTNM)のステージング情報を抽出することができる。
以上より, LLMは腫瘍 (T) 分類においてサブパーパフォーマンスを示すが, プロンプト戦略の適切な適用により, 転移 (M) では同等の性能を示し, Node (N) 分類では性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-04-02T02:30:47Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。