論文の概要: GS-BrainText: A Multi-Site Brain Imaging Report Dataset from Generation Scotland for Clinical Natural Language Processing Development and Validation
- arxiv url: http://arxiv.org/abs/2603.26235v1
- Date: Fri, 27 Mar 2026 09:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.433022
- Title: GS-BrainText: A Multi-Site Brain Imaging Report Dataset from Generation Scotland for Clinical Natural Language Processing Development and Validation
- Title(参考訳): GS-BrainText: 臨床自然言語処理開発と検証のためのスコットランド世代脳イメージングレポートデータセット
- Authors: Beatrice Alex, Claire Grover, Arlene Casey, Richard Tobin, Heather Whalley, William Whiteley,
- Abstract要約: GS-BrainTextは、ジェネレーション・スコットランドのコホートから8,511個の脳放射線学レポートを収集したデータである。
2,431が24種類の脳疾患の表現型に注釈付けされている。
このデータセットは5つのスコットランドNHSヘルスボードにまたがっており、幅広い年齢表現を含んでいる。
- 参考スコア(独自算出の注目度): 1.5543568410302504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GS-BrainText, a curated dataset of 8,511 brain radiology reports from the Generation Scotland cohort, of which 2,431 are annotated for 24 brain disease phenotypes. This multi-site dataset spans five Scottish NHS health boards and includes broad age representation (mean age 58, median age 53), making it uniquely valuable for developing and evaluating generalisable clinical natural language processing (NLP) algorithms and tools. Expert annotations were performed by a multidisciplinary clinical team using an annotation schema, with 10-100% double annotation per NHS health board and rigorous quality assurance. Benchmark evaluation using EdIE-R, an existing rule-based NLP system developed in conjunction with the annotation schema, revealed some performance variation across health boards (F1: 86.13-98.13), phenotypes (F1: 22.22-100) and age groups (F1: 87.01-98.13), highlighting critical challenges in generalisation of NLP tools. The GS-BrainText dataset addresses a significant gap in available UK clinical text resources and provides a valuable resource for the study of linguistic variation, diagnostic uncertainty expression and the impact of data characteristics on NLP system performance.
- Abstract(参考訳): GS-BrainTextは、ジェネレーション・スコットランドのコホートから8,511件の脳放射線学レポートを収集し、そのうち24件の脳疾患の表現型に2,431件の注釈を付けた。
このマルチサイトデータセットは、スコットランドの5つのNHSヘルスボードにまたがっており、幅広い年齢表現(平均年齢58歳、中央値53歳)を含んでおり、一般的な臨床自然言語処理(NLP)アルゴリズムやツールの開発と評価に非常に有用である。
専門家アノテーションは、NHSの健康管理委員会ごとに10-100%の二重アノテーションと厳格な品質保証を備えたアノテーションスキーマを用いて、複数の学際的な臨床チームによって実行された。
アノテーションスキーマとともに開発された既存のルールベースのNLPシステムであるEdIE-Rを用いたベンチマーク評価では、ヘルスボード(F1: 86.13-98.13)、表現型(F1: 22.22-100)、年齢グループ(F1: 87.01-98.13)のいくつかのパフォーマンス変化が明らかにされ、NLPツールの一般化における重要な課題が浮き彫りになった。
GS-BrainTextデータセットは、利用可能な英国の臨床テキストリソースの重大なギャップに対処し、言語的変異、診断の不確実性表現、およびNLPシステムの性能に対するデータ特性の影響を研究するための貴重なリソースを提供する。
関連論文リスト
- Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines [1.9615061725959186]
本稿では,Large Language Models (LLMs) を用いたNICE (National Institute for Health and Care Excellence) 臨床ガイドラインを検索するための検索型生成システムの開発と評価について述べる。
このシステムの検索アーキテクチャは,300のガイドラインから抽出した10,195個のテキストチャンクのデータベースに対して,ハイブリッドな埋め込み機構によって構成されている。
平均相反ランク(MRR)が0.814、第1チャンクで81%、検索チャンクで99.1%のリコールが7901クエリで評価されている。
論文 参考訳(メタデータ) (2025-10-03T12:57:13Z) - A Knowledge-enhanced Pathology Vision-language Foundation Model for Cancer Diagnosis [58.85247337449624]
本稿では,疾患知識を階層型セマンティックグループ内のアライメントに組み込む知識強化型視覚言語事前学習手法を提案する。
KEEPはゼロショット癌診断タスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-17T17:45:21Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards Structuring Real-World Data at Scale: Deep Learning for
Extracting Key Oncology Information from Clinical Text with Patient-Level
Supervision [10.929271646369887]
実世界データ(RWD)の詳細な患者情報の大部分は、フリーテキストの臨床文書でのみ利用可能である。
従来のルールベースのシステムは、臨床テキストの言語的変異やあいまいさに弱い。
本稿では,患者レベルの管理を医療登録から活用することを提案する。
論文 参考訳(メタデータ) (2022-03-20T03:42:03Z) - A Systematic Review of Natural Language Processing Applied to Radiology
Reports [3.600747505433814]
本研究は, 放射線学報告に応用されたNLPの最近の文献を体系的に評価する。
本研究は, 放射線学的特徴, nlp法, 性能, 研究, 臨床応用特性を含む21の変数に基づく。
論文 参考訳(メタデータ) (2021-02-18T18:54:41Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。