論文の概要: A Robust BERT-Based Deep Learning Model for Automated Cancer Type Extraction from Unstructured Pathology Reports
- arxiv url: http://arxiv.org/abs/2508.15149v1
- Date: Thu, 21 Aug 2025 01:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.137204
- Title: A Robust BERT-Based Deep Learning Model for Automated Cancer Type Extraction from Unstructured Pathology Reports
- Title(参考訳): 非構造的病理報告からの自動癌型抽出のためのロバストBERTに基づく深層学習モデル
- Authors: Minh Tran, Jeffery C. Chan, Min Li Huang, Maya Kansara, John P. Grady, Christine E. Napier, Subotheni Thavaneswaran, Mandy L. Ballinger, David M. Thomas, Frank P. Lin,
- Abstract要約: 腫瘍学における精度タスクのための微調整されたドメイン固有モデルは、より効率的で正確な臨床情報抽出の道を開くかもしれない。
このモデルはベースラインモデルと大規模言語モデルMistral 7Bを大きく上回り、FBertscore 0.98と80.61%の完全一致を達成した。
- 参考スコア(独自算出の注目度): 1.2546979106262524
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The accurate extraction of clinical information from electronic medical records is particularly critical to clinical research but require much trained expertise and manual labor. In this study we developed a robust system for automated extraction of the specific cancer types for the purpose of supporting precision oncology research. from pathology reports using a fine-tuned RoBERTa model. This model significantly outperformed the baseline model and a Large Language Model, Mistral 7B, achieving F1_Bertscore 0.98 and overall exact match of 80.61%. This fine-tuning approach demonstrates the potential for scalability that can integrate seamlessly into the molecular tumour board process. Fine-tuning domain-specific models for precision tasks in oncology, may pave the way for more efficient and accurate clinical information extraction.
- Abstract(参考訳): 電子カルテからの正確な臨床情報の抽出は、特に臨床研究において重要であるが、多くの専門知識と手作業が必要である。
本研究では, 精度オンコロジー研究を支援するために, 特定の癌種の自動抽出システムを開発した。
微調整されたRoBERTaモデルを用いた病理報告から。
このモデルはベースラインモデルと大規模言語モデルMistral 7Bを大きく上回り、F1_Bertscore 0.98と80.61%の完全一致を達成した。
この微調整アプローチは、分子腫瘍基板プロセスにシームレスに統合できるスケーラビリティの可能性を示している。
腫瘍学における精度タスクのための微調整されたドメイン固有モデルは、より効率的で正確な臨床情報抽出の道を開くかもしれない。
関連論文リスト
- A Machine Learning Framework for Breast Cancer Treatment Classification Using a Novel Dataset [0.0]
本研究は,癌ゲノムアトラス(TCGA)乳がん臨床データセットを用いて機械学習モデルを開発した。
モデルは5倍のクロスバリデーションを用いてトレーニングされ、精度、精度、リコール、特異性、感度、F1スコア、レシーバ動作特性曲線(AUROC)以下の領域を含むパフォーマンス指標によって評価される。
試験モデルのうち、GBM(Gradient Boosting Machine)は最高安定性能(精度0.7718、AUROC0.8252)を達成する。
論文 参考訳(メタデータ) (2025-06-23T18:33:15Z) - Artificial Intelligence-Driven Prognostic Classification of COVID-19 Using Chest X-rays: A Deep Learning Approach [0.0]
本研究では,Chest X線画像を用いて,新型コロナウイルスの重症度(中・中・重症度)を分類するための高精度深層学習モデルを提案する。
平均精度は97%,特異性は99%,感度は87%,F1スコアは93.11%であった。
これらの結果は、実際の臨床応用におけるモデルの可能性を示している。
論文 参考訳(メタデータ) (2025-03-17T15:27:21Z) - Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - TrialGraph: Machine Intelligence Enabled Insight from Graph Modelling of
Clinical Trials [0.0]
我々はCT.gov, AACT, TrialTroveデータベースから収集した治験データセット(n=1191臨床試験、100万人の患者を代表する)を紹介する。
次に,グラフ機械学習アルゴリズムの数学的基礎と実装について詳述する。
我々はこれらのモデルを用いて、疾患、既往の医療状況、治療に関する情報を与えられた臨床試験の副作用情報を予測する訓練を行った。
論文 参考訳(メタデータ) (2021-12-15T15:36:57Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。