論文の概要: Evaluating Open-Weight Large Language Models for Structured Data Extraction from Narrative Medical Reports Across Multiple Use Cases and Languages
- arxiv url: http://arxiv.org/abs/2511.10658v1
- Date: Mon, 03 Nov 2025 12:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.233549
- Title: Evaluating Open-Weight Large Language Models for Structured Data Extraction from Narrative Medical Reports Across Multiple Use Cases and Languages
- Title(参考訳): 複数症例・言語にわたる物語医療報告からの構造化データ抽出のためのオープンウェイト大言語モデルの評価
- Authors: Douwe J. Spaanderman, Karthik Prathaban, Petr Zelina, Kaouther Mouheb, Lukáš Hejtmánek, Matthew Marzetti, Antonius W. Schurink, Damian Chan, Ruben Niemantsverdriet, Frederik Hartmann, Zhen Qian, Maarten G. J. Thomeer, Petr Holub, Farhan Akram, Frank J. Wolters, Meike W. Vernooij, Cornelis Verhoef, Esther E. Bron, Vít Nováček, Dirk J. Grünhagen, Wiro J. Niessen, Martijn P. A. Starmans, Stefan Klein,
- Abstract要約: 大規模言語モデル (LLMs) は、自由テキスト臨床記録から構造化された情報を抽出するためにますます使われている。
当科では6症例に15例のオープンウェイトLSMを報告した。
- 参考スコア(独自算出の注目度): 2.3429123017483016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to extract structured information from free-text clinical records, but prior work often focuses on single tasks, limited models, and English-language reports. We evaluated 15 open-weight LLMs on pathology and radiology reports across six use cases, colorectal liver metastases, liver tumours, neurodegenerative diseases, soft-tissue tumours, melanomas, and sarcomas, at three institutes in the Netherlands, UK, and Czech Republic. Models included general-purpose and medical-specialised LLMs of various sizes, and six prompting strategies were compared: zero-shot, one-shot, few-shot, chain-of-thought, self-consistency, and prompt graph. Performance was assessed using task-appropriate metrics, with consensus rank aggregation and linear mixed-effects models quantifying variance. Top-ranked models achieved macro-average scores close to inter-rater agreement across tasks. Small-to-medium general-purpose models performed comparably to large models, while tiny and specialised models performed worse. Prompt graph and few-shot prompting improved performance by ~13%. Task-specific factors, including variable complexity and annotation variability, influenced results more than model size or prompting strategy. These findings show that open-weight LLMs can extract structured data from clinical reports across diseases, languages, and institutions, offering a scalable approach for clinical data curation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自由テキスト臨床記録から構造化された情報を抽出するために使われることが多いが、以前の研究は、単一のタスク、限られたモデル、英語のレポートに重点を置いていた。
症例6例, 大腸癌, 肝腫瘍, 神経変性疾患, 軟部腫瘍, メラノーマ, 肉腫について, オランダ, イギリス, チェコの3施設で15例のオープンウェイトLSMについて検討した。
モデルには、様々な大きさの汎用および医療用LLMが含まれ、ゼロショット、ワンショット、少数ショット、チェーンオブ思考、自己整合性、プロンプトグラフの6つのプロンプト戦略が比較された。
コンセンサスランクアグリゲーションと線形混合効果モデルを用いて,タスクに適した指標を用いて評価を行った。
上位モデルのマクロ平均スコアは、タスク間でのラッター間合意に近い。
小型から中級の汎用モデルは大型モデルと互換性があり、小型と特殊化されたモデルでは性能が悪くなった。
プロンプトグラフと少数ショットにより、パフォーマンスが約13%向上した。
変数の複雑さやアノテーションの可変性を含むタスク固有の要因は、モデルのサイズやプロンプト戦略よりも結果に影響します。
これらの結果から, オープンウェイトLSMは, 疾患, 言語, 施設にまたがる臨床報告から構造化されたデータを抽出し, 臨床データキュレーションにスケーラブルなアプローチを提供することが示唆された。
関連論文リスト
- BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [14.409097921305134]
BRIDGEは、9言語にわたる実世界の臨床データソースから得られた87のタスクからなる包括的なベンチマークである。
8つの主要なタスクタイプを6つの臨床段階と20の代表的な応用でカバーしている。
本結果から, モデルサイズ, 言語, 自然言語処理タスク, 臨床専門分野において, かなりの性能変化が明らかとなった。
論文 参考訳(メタデータ) (2025-04-28T04:13:18Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - ELMTEX: Fine-Tuning Large Language Models for Structured Clinical Information Extraction. A Case Study on Clinical Reports [3.0363830583066713]
本稿では,Large Language Models (LLMs) を用いて,構造化されていない臨床報告から構造化情報を抽出することを目的としたプロジェクトの結果について述べる。
我々は,ユーザインタフェースを用いたワークフローを開発し,戦略と微調整により,様々なサイズのLCMを評価した。
以上の結果から,微調整された小型モデルでは性能が向上し,資源制限設定の効率化が期待できることがわかった。
論文 参考訳(メタデータ) (2025-02-08T16:44:56Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - A Hybrid Framework with Large Language Models for Rare Disease Phenotyping [4.550497164299771]
希少な疾患は、その頻度が低く、異質な臨床的プレゼンテーションのため、診断と治療において重大な課題となる。
本研究では,辞書ベースの自然言語処理(NLP)ツールと大規模言語モデル(LLM)を組み合わせたハイブリッドアプローチを開発することを目的とする。
本稿では,Orphanet Rare Disease Ontology (ORDO) とUnified Medical Language System (UMLS) を統合した新たなハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T20:59:28Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。