論文の概要: Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data
- arxiv url: http://arxiv.org/abs/2410.15198v1
- Date: Sat, 19 Oct 2024 20:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:50.123610
- Title: Medical-GAT: Cancer Document Classification Leveraging Graph-Based Residual Network for Scenarios with Limited Data
- Title(参考訳): 医療用GAT: 限られたデータを持つシナリオのためのグラフベース残留ネットワークを活用したがん文書分類
- Authors: Elias Hossain, Tasfia Nuzhat, Shamsul Masum, Shahram Rahimi, Sudip Mittal, Noorbakhsh Amiri Golilarz,
- Abstract要約: 我々は, 甲状腺癌, 大腸癌, 肺癌, 一般の話題に分類した, 1,874 の生医学的抄録を収集した。
我々の研究は、特にデータスカースシナリオにおいて、分類性能を改善するためにこのデータセットを活用することに焦点を当てている。
がん関連文書のセマンティック情報と構造的関係をキャプチャする複数のグラフアテンション層を備えたResidual Graph Attention Network(R-GAT)を導入する。
- 参考スコア(独自算出の注目度): 2.913761513290171
- License:
- Abstract: Accurate classification of cancer-related medical abstracts is crucial for healthcare management and research. However, obtaining large, labeled datasets in the medical domain is challenging due to privacy concerns and the complexity of clinical data. This scarcity of annotated data impedes the development of effective machine learning models for cancer document classification. To address this challenge, we present a curated dataset of 1,874 biomedical abstracts, categorized into thyroid cancer, colon cancer, lung cancer, and generic topics. Our research focuses on leveraging this dataset to improve classification performance, particularly in data-scarce scenarios. We introduce a Residual Graph Attention Network (R-GAT) with multiple graph attention layers that capture the semantic information and structural relationships within cancer-related documents. Our R-GAT model is compared with various techniques, including transformer-based models such as Bidirectional Encoder Representations from Transformers (BERT), RoBERTa, and domain-specific models like BioBERT and Bio+ClinicalBERT. We also evaluated deep learning models (CNNs, LSTMs) and traditional machine learning models (Logistic Regression, SVM). Additionally, we explore ensemble approaches that combine deep learning models to enhance classification. Various feature extraction methods are assessed, including Term Frequency-Inverse Document Frequency (TF-IDF) with unigrams and bigrams, Word2Vec, and tokenizers from BERT and RoBERTa. The R-GAT model outperforms other techniques, achieving precision, recall, and F1 scores of 0.99, 0.97, and 0.98 for thyroid cancer; 0.96, 0.94, and 0.95 for colon cancer; 0.96, 0.99, and 0.97 for lung cancer; and 0.95, 0.96, and 0.95 for generic topics.
- Abstract(参考訳): がん関連医学的抽象化の正確な分類は、医療管理と研究に不可欠である。
しかし,プライバシの懸念や臨床データの複雑さから,医療領域におけるラベル付きデータセットの取得は困難である。
この注釈付きデータの不足は、がん文書分類のための効果的な機械学習モデルの開発を妨げる。
この課題に対処するために, 甲状腺癌, 大腸癌, 肺癌, 一般の話題に分類した, 1,874 の生物医学的要約データセットを作成した。
我々の研究は、特にデータスカースシナリオにおいて、分類性能を改善するためにこのデータセットを活用することに焦点を当てている。
がん関連文書のセマンティック情報と構造的関係をキャプチャする複数のグラフアテンション層を備えたResidual Graph Attention Network(R-GAT)を導入する。
我々のR-GATモデルは、BERT(Bidirectional Encoder Representations from Transformers)やRoBERTa、BioBERTやBio+ClinicalBERTといったドメイン固有モデルなど、トランスフォーマーベースのモデルと比較される。
また,ディープラーニングモデル(CNN,LSTM)と従来の機械学習モデル(ロジスティック回帰,SVM)についても検討した。
さらに、深層学習モデルを組み合わせて分類を強化するアンサンブルアプローチについても検討する。
単一グラムと大文字を含むTF-IDF(Term Frequency-Inverse Document Frequency)、Word2Vec、BERTおよびRoBERTaのトークン化器など、様々な特徴抽出手法が評価されている。
R-GATモデルは、甲状腺癌では0.99, 0.97, 0.98, 0.96, 0.94, 0.95, 0.96, 0.99, 0.99, 0.99, 0.95, 0.95, 0.95, 0.95, 0.95, 0.95, 0.95, 精度、リコール、F1スコアを達成し、他の手法よりも優れている。
関連論文リスト
- Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Deep Learning-Based Segmentation of Tumors in PET/CT Volumes: Benchmark of Different Architectures and Training Strategies [0.12301374769426145]
本研究は,癌病変の自動分類のためのニューラルネットワークアーキテクチャとトレーニング戦略について検討する。
V-NetモデルとnnU-Netモデルは、それぞれのデータセットに対して最も効果的であった。
がんのない症例をAutoPETデータセットから除去することで,ほとんどのモデルの性能が向上した。
論文 参考訳(メタデータ) (2024-04-15T13:03:42Z) - RCdpia: A Renal Carcinoma Digital Pathology Image Annotation dataset based on pathologists [14.79279940958727]
腫瘍領域と隣接領域(RCdpia)を個別にラベル付けしたTCGAデジタル病理データセットを作成した。
このデータセットはhttp://39.171.241.18:8888/RCdpia/で公開されている。
論文 参考訳(メタデータ) (2024-03-17T13:23:25Z) - Hierarchical Classification System for Breast Cancer Specimen Report
(HCSBC) -- an end-to-end model for characterizing severity and diagnosis [3.4454444815042735]
階層型ハイブリッドトランスフォーマーベースパイプライン(59ラベル)の開発 -乳癌検体分類システム(HCSBC)-
我々は、EUHデータに基づいてモデルをトレーニングし、2つの外部データセット(MGHとMayo Clinical)でモデルの性能を評価した。
論文 参考訳(メタデータ) (2023-11-02T18:37:45Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Topological Data Analysis of copy number alterations in cancer [70.85487611525896]
癌ゲノム情報に含まれる情報を新しいトポロジに基づくアプローチで捉える可能性を探る。
本手法は, 癌体性遺伝データに有意な低次元表現を抽出する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-22T17:31:23Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - The scalable Birth-Death MCMC Algorithm for Mixed Graphical Model
Learning with Application to Genomic Data Integration [0.0]
本稿では,異なるタイプのマルチオミックデータを解析するための混合グラフィカルモデルを提案する。
モデル選択結果の計算効率と精度の両面で,本手法が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-08T16:34:58Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。