論文の概要: Adapting Natural Language Processing Models Across Jurisdictions: A pilot Study in Canadian Cancer Registries
- arxiv url: http://arxiv.org/abs/2601.00787v1
- Date: Fri, 02 Jan 2026 18:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.622937
- Title: Adapting Natural Language Processing Models Across Jurisdictions: A pilot Study in Canadian Cancer Registries
- Title(参考訳): 自然言語処理モデルの適用 -カナダがん登録のパイロット研究-
- Authors: Jonathan Simkin, Lovedeep Gondara, Zeeshan Rizvi, Gregory Doyle, Jeff Dowden, Dan Bond, Desmond Martin, Raymond Ng,
- Abstract要約: 人口ベースのがん登録は、診断源として病理報告に依存するが、手動の抽象化はリソース集約であり、がんデータの遅延に寄与する。
カナダにおけるがん監視のためのバイオメディカルトランスフォーマーモデルであるGatorTronとともに、ブリティッシュコロンビア癌登録所で開発されたドメイン適応トランスフォーマーモデルであるBCCRTronを適応する最初の国家横断評価を行った。
トレーニングデータセットはNewfoundland & Labrador Cancer Registryから,約104,000および22,000の未同定病理報告で構成された。
- 参考スコア(独自算出の注目度): 0.6281138003616821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Population-based cancer registries depend on pathology reports as their primary diagnostic source, yet manual abstraction is resource-intensive and contributes to delays in cancer data. While transformer-based NLP systems have improved registry workflows, their ability to generalize across jurisdictions with differing reporting conventions remains poorly understood. We present the first cross-provincial evaluation of adapting BCCRTron, a domain-adapted transformer model developed at the British Columbia Cancer Registry, alongside GatorTron, a biomedical transformer model, for cancer surveillance in Canada. Our training dataset consisted of approximately 104,000 and 22,000 de-identified pathology reports from the Newfoundland & Labrador Cancer Registry (NLCR) for Tier 1 (cancer vs. non-cancer) and Tier 2 (reportable vs. non-reportable) tasks, respectively. Both models were fine-tuned using complementary synoptic and diagnosis focused report section input pipelines. Across NLCR test sets, the adapted models maintained high performance, demonstrating transformers pretrained in one jurisdiction can be localized to another with modest fine-tuning. To improve sensitivity, we combined the two models using a conservative OR-ensemble achieving a Tier 1 recall of 0.99 and reduced missed cancers to 24, compared with 48 and 54 for the standalone models. For Tier 2, the ensemble achieved 0.99 recall and reduced missed reportable cancers to 33, compared with 54 and 46 for the individual models. These findings demonstrate that an ensemble combining complementary text representations substantially reduce missed cancers and improve error coverage in cancer-registry NLP. We implement a privacy-preserving workflow in which only model weights are shared between provinces, supporting interoperable NLP infrastructure and a future pan-Canadian foundation model for cancer pathology and registry workflows.
- Abstract(参考訳): 人口ベースのがん登録は、診断源として病理報告に依存するが、手動の抽象化はリソース集約であり、がんデータの遅延に寄与する。
トランスフォーマーベースのNLPシステムは、レジストリワークフローを改善したが、異なるレポート規約で管轄区域をまたいで一般化する能力は、いまだに理解されていない。
カナダにおけるがん監視のためのバイオメディカルトランスフォーマーモデルであるGatorTronとともに、ブリティッシュコロンビア癌登録所で開発されたドメイン適応トランスフォーマーモデルであるBCCRTronを適応する最初の国家横断評価を行った。
トレーニングデータセットはニューファンドランド・ラブラドール癌登録所 (NLCR) から, Tier 1 (cancer vs. non-cancer) と Tier 2 (reportable vs. non-reportable) のタスクに対して, 約104,000および22,000の非同定された病理報告で構成された。
両モデルは相補的な合成と診断に焦点を当てたレポートセクション入力パイプラインを用いて微調整された。
NLCRテストセット全体では、適応されたモデルは高い性能を維持しており、ある領域で事前訓練されたトランスフォーマーは、控えめな微調整で別の領域にローカライズできることを示した。
感度向上のために, 保守的なORアンサンブルを用いて, タイアー1リコール0.99を達成し, 欠失癌を24に減らした。
Tier 2では、このアンサンブルは0.99リコールを達成し、報告不能な癌を33に減らした。
以上の結果から,補完的なテキスト表現を組み合わせたアンサンブルは,欠失癌を著しく減らし,がん登録NLPのエラーカバレッジを向上させることが示唆された。
プライバシ保護ワークフローを実装しており、リージョン間でのみモデルウェイトが共有され、相互運用可能なNLPインフラストラクチャと、がんの病理とレジストリワークフローのための将来のパンカナディアン基盤モデルをサポートする。
関連論文リスト
- Topological Conditioning for Mammography Models via a Stable Wavelet-Persistence Vectorization [0.06445605125467573]
マンモグラフィーのスクリーニングは死亡率を低下させるが、解釈は依然としてかなりの偽陰性と偽陽性に悩まされている。
本稿では、ウェーブレットに基づく永続ホモロジーのベクトル化に基づく外部性能の向上を目的とした簡易な条件付け信号を提案する。
論文 参考訳(メタデータ) (2025-12-10T23:19:05Z) - Boosting Pathology Foundation Models via Few-shot Prompt-tuning for Rare Cancer Subtyping [80.92960114162746]
視覚言語病理基盤モデルの可能性を生かした新しいフレームワークPathPTを提案する。
PathPTは、WSIレベルの監視を、VLモデルのゼロショット機能を活用することで、きめ細かいタイルレベルのガイダンスに変換する。
以上の結果から,PathPTは一貫して優れた性能を示し,サブタイピング精度と癌領域の接地能力を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-21T18:04:41Z) - Cancer-Net PCa-Seg: Benchmarking Deep Learning Models for Prostate Cancer Segmentation Using Synthetic Correlated Diffusion Imaging [65.83291923029985]
前立腺癌(PCa)は米国で最も多いがんであり、約30,000人、全診断の29%、2024年に35,000人が死亡した。
前立腺特異的抗原 (PSA) 検査やMRI (MRI) などの従来のスクリーニング法は診断において重要であるが、特異性や一般化性には限界がある。
U-Net, SegResNet, Swin UNETR, Attention U-Net, LightM-UNetといった最先端のディープラーニングモデルを用いて200ドルのCDIから前立腺を抽出する。
論文 参考訳(メタデータ) (2025-01-15T22:23:41Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Variational Autoencoders for Feature Exploration and Malignancy
Prediction of Lung Lesions [0.0]
肺がんはイギリスで21%のがん死の原因となっている。
最近の研究は、定期的なスキャンから肺がんの正確な早期診断のためのAI手法の能力を実証している。
本研究では, 変異型オートエンコーダ(VAE)の肺癌病変に対する応用について検討した。
論文 参考訳(メタデータ) (2023-11-27T11:12:33Z) - Hierarchical Classification System for Breast Cancer Specimen Report
(HCSBC) -- an end-to-end model for characterizing severity and diagnosis [3.4454444815042735]
階層型ハイブリッドトランスフォーマーベースパイプライン(59ラベル)の開発 -乳癌検体分類システム(HCSBC)-
我々は、EUHデータに基づいてモデルをトレーニングし、2つの外部データセット(MGHとMayo Clinical)でモデルの性能を評価した。
論文 参考訳(メタデータ) (2023-11-02T18:37:45Z) - Integration of Radiomics and Tumor Biomarkers in Interpretable Machine
Learning Models [0.0]
本稿では,専門家由来の放射能とDNN予測バイオマーカーを解釈可能な分類器に統合することを提案する。
評価と実用化において,ConRadへの入力は分割CTスキャンのみである。
提案したConRadモデルでは,CBM由来のバイオマーカーと放射能の特徴を解釈可能なMLモデルで組み合わせ,肺悪性度分類に優れる。
論文 参考訳(メタデータ) (2023-03-20T15:00:52Z) - Improving Precancerous Case Characterization via Transformer-based
Ensemble Learning [31.891340667123124]
自然言語処理のがん病理学報告への応用は、がん症例の検出に焦点が当てられている。
先天性腺腫のキャラクタリゼーションの改善は、早期がんの検出と予防のための診断試験の開発を支援する。
以上の結果から,NLPを用いて早期がん予防のための診断試験の開発を促進できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-10T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。