論文の概要: A Semi-Automated Annotation Workflow for Paediatric Histopathology Reports Using Small Language Models
- arxiv url: http://arxiv.org/abs/2604.04168v2
- Date: Tue, 07 Apr 2026 07:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 12:54:27.255366
- Title: A Semi-Automated Annotation Workflow for Paediatric Histopathology Reports Using Small Language Models
- Title(参考訳): 小言語モデルを用いた小児病理組織診断のための半自動アノテーションワークフロー
- Authors: Avish Vijayaraghavan, Jaskaran Singh Kawatra, Sebin Sabu, Jonny Sheldon, Will Poulett, Alex Eze, Daniel Key, John Booth, Shiren Patel, Jonny Pearson, Dan Schofield, Jonathan Hope, Pavithra Rajendran, Neil Sebire,
- Abstract要約: 本研究では,小言語モデル(SLM)を用いた資源効率のよい半自動アノテーションワークフローを開発し,構造化EPRデータから構造化情報を抽出する。
概念実証として、本ワークフローを小児腎生検報告、その制約された診断範囲と明確に定義された基礎生物学に応用した領域に適用する。
SLMを用いた自動情報抽出手法を開発しながら,本ワークフローを3つの会議の臨床的監視とともに反復的に開発し,グレート・オーモンド・ストリート病院の2,111件のデータセットから400件の報告をゴールドスタンダードとして手動で注釈付けする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic Patient Record (EPR) systems contain valuable clinical information, but much of it is trapped in unstructured text, limiting its use for research and decision-making. Large language models can extract such information but require substantial computational resources to run locally, and sending sensitive clinical data to cloud-based services, even when deidentified, raises significant patient privacy concerns. In this study, we develop a resource-efficient semi-automated annotation workflow using small language models (SLMs) to extract structured information from unstructured EPR data, focusing on paediatric histopathology reports. As a proof-of-concept, we apply the workflow to paediatric renal biopsy reports, a domain chosen for its constrained diagnostic scope and well-defined underlying biology. We develop the workflow iteratively with clinical oversight across three meetings, manually annotating 400 reports from a dataset of 2,111 at Great Ormond Street Hospital as a gold standard, while developing an automated information extraction approach using SLMs. We frame extraction as a Question-Answering task grounded by clinician-guided entity guidelines and few-shot examples, evaluating five instruction-tuned SLMs with a disagreement modelling framework to prioritise reports for clinical review. Gemma 2 2B achieves the highest accuracy at 84.3%, outperforming off-the-shelf models including spaCy (74.3%), BioBERT-SQuAD (62.3%), RoBERTa-SQuAD (59.7%), and GLiNER (60.2%). Entity guidelines improved performance by 7-19% over the zero-shot baseline, and few-shot examples by 6-38%, though their benefits do not compound when combined. These results demonstrate that SLMs can extract structured information from specialised clinical domains on CPU-only infrastructure with minimal clinician involvement. Our code is available at https://github.com/gosh-dre/nlp_renal_biopsy.
- Abstract(参考訳): 電子患者記録(EPR)システムには貴重な臨床情報が含まれているが、その多くが構造化されていないテキストに閉じ込められており、研究や意思決定に使用が制限されている。
大規模な言語モデルはそのような情報を抽出することができるが、ローカルで実行するには相当な計算資源を必要とし、機密性の高い臨床データをクラウドベースのサービスに送信する。
本研究では,小言語モデル(SLM)を用いた資源効率のよい半自動アノテーションワークフローを開発し,非構造化ERPデータから構造化情報を抽出し,小児の病理組織学報告に焦点をあてる。
概念実証として、本ワークフローを小児腎生検報告、その制約された診断範囲と明確に定義された基礎生物学に応用した領域に適用する。
SLMを用いた自動情報抽出手法を開発しながら,本ワークフローを3つの会議の臨床的監視とともに反復的に開発し,グレート・オーモンド・ストリート病院の2,111件のデータセットから400件の報告をゴールドスタンダードとして手動で注釈付けする。
本研究は,臨床診断ガイドラインに基づく質問応答課題の抽出と,臨床検査のためのレポートの優先順位付けのための不一致モデリングフレームワークを用いて,5つの指導訓練SLMの評価を行った。
Gemma 2 2Bは84.3%で最高精度を達成し、SpaCy (74.3%)、BioBERT-SQuAD (62.3%)、RoBERTa-SQuAD (59.7%)、GLiNER (60.2%)などの市販モデルを上回っている。
エンティティガイドラインは、ゼロショットベースラインよりもパフォーマンスを7-19%改善し、少数ショット例を6-38%改善した。
これらの結果から,SLMはCPUのみのインフラ上において,臨床領域の構造化情報を最小限に抽出できることが示唆された。
私たちのコードはhttps://github.com/gosh-dre/nlp_renal_biopsy.comで公開されています。
関連論文リスト
- Automating Clinical Information Retrieval from Finnish Electronic Health Records Using Large Language Models [0.0]
ローカルにデプロイ可能なフレームワークは、外部データ転送なしでEHRから直接臨床質問に答える。
オープンソースの大規模言語モデル(LLM)は、4Bから70Bまでのパラメータを完全にオフラインでベンチマークした。
論文 参考訳(メタデータ) (2026-03-27T14:03:51Z) - Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models [0.6642706656153227]
完全オープンソースでローカルにデプロイ可能なパイプラインを,放射線学報告からの縦方向情報抽出のために提案する。
対象病変が93.7%,非ターゲット病変が94.9%,新しい病変が94.0%であった。
論文 参考訳(メタデータ) (2026-03-10T13:13:43Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - Leveraging large language models for structured information extraction from pathology reports [0.0]
乳がん病理組織学的報告から構造情報を抽出する際の大規模言語モデルの精度を評価する。
構造化情報抽出のためのオープンソースツールは、自然言語を使って非プログラマがカスタマイズできる。
論文 参考訳(メタデータ) (2025-02-14T21:46:02Z) - Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。