論文の概要: GNN-ViTCap: GNN-Enhanced Multiple Instance Learning with Vision Transformers for Whole Slide Image Classification and Captioning
- arxiv url: http://arxiv.org/abs/2507.07006v1
- Date: Wed, 09 Jul 2025 16:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.675731
- Title: GNN-ViTCap: GNN-Enhanced Multiple Instance Learning with Vision Transformers for Whole Slide Image Classification and Captioning
- Title(参考訳): GNN-ViTCap:全スライド画像分類とキャプションのための視覚変換器によるGNN強化多重インスタンス学習
- Authors: S M Taslim Uddin Raju, Md. Milon Islam, Md Rezwanul Haque, Hamdi Altaheri, Fakhri Karray,
- Abstract要約: コンピュータ支援病理学においてWSI分類とキャプションが重要な課題となっている。
病理画像からの分類とキャプション生成のための新しいGNN-ViTCapフレームワークを提案する。
GNN-ViTCapのF1スコアは0.934、AUCは0.963、BLEU-4スコアは0.811、METEORスコアは0.569である。
- 参考スコア(独自算出の注目度): 1.25828876338076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microscopic assessment of histopathology images is vital for accurate cancer diagnosis and treatment. Whole Slide Image (WSI) classification and captioning have become crucial tasks in computer-aided pathology. However, microscopic WSI face challenges such as redundant patches and unknown patch positions due to subjective pathologist captures. Moreover, generating automatic pathology captions remains a significant challenge. To address these issues, we introduce a novel GNN-ViTCap framework for classification and caption generation from histopathological microscopic images. First, a visual feature extractor generates patch embeddings. Redundant patches are then removed by dynamically clustering these embeddings using deep embedded clustering and selecting representative patches via a scalar dot attention mechanism. We build a graph by connecting each node to its nearest neighbors in the similarity matrix and apply a graph neural network to capture both local and global context. The aggregated image embeddings are projected into the language model's input space through a linear layer and combined with caption tokens to fine-tune a large language model. We validate our method on the BreakHis and PatchGastric datasets. GNN-ViTCap achieves an F1 score of 0.934 and an AUC of 0.963 for classification, along with a BLEU-4 score of 0.811 and a METEOR score of 0.569 for captioning. Experimental results demonstrate that GNN-ViTCap outperforms state of the art approaches, offering a reliable and efficient solution for microscopy based patient diagnosis.
- Abstract(参考訳): 病理組織像の顕微鏡的評価は正確な癌診断と治療に不可欠である。
コンピュータ支援病理学においてWSI分類とキャプションが重要な課題となっている。
しかし、顕微鏡的WSIは、主観的病理医の捕獲による冗長パッチや未知のパッチ位置などの課題に直面している。
また, 自動診断キャプションの作成も大きな課題である。
これらの課題に対処するために,病理組織学的画像からの分類とキャプション生成のための新しいGNN-ViTCapフレームワークを提案する。
まず、視覚特徴抽出器がパッチ埋め込みを生成する。
冗長パッチは、深層クラスタリングを使用してこれらの埋め込みを動的にクラスタリングし、スカラードットアテンション機構を介して代表パッチを選択することで除去される。
類似度行列において,各ノードを近接する隣接ノードに接続してグラフを構築し,局所的・グローバル的両方のコンテキストを捉えるグラフニューラルネットワークを適用した。
集約された画像埋め込みは、線形層を介して言語モデルの入力空間に投影され、キャプショントークンと組み合わせて大きな言語モデルを微調整する。
我々はBreakHisおよびPatchGastricデータセット上で本手法を検証する。
GNN-ViTCapのF1スコアは0.934、AUCは0.963、BLEU-4スコアは0.811、METEORスコアは0.569である。
実験の結果、GNN-ViTCapは最先端のアプローチよりも優れており、顕微鏡に基づく患者診断の信頼性と効率的なソリューションを提供する。
関連論文リスト
- From Pixels to Histopathology: A Graph-Based Framework for Interpretable Whole Slide Image Analysis [81.19923502845441]
我々はWSIグラフ表現を構成するグラフベースのフレームワークを開発する。
任意のパッチではなく生物学的境界に従う組織表現(ノード)を構築します。
本手法の最終段階として,グラフアテンションネットワークを用いて診断課題を解決する。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT [1.0819408603463427]
既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて4096x4096サイズのWSIのパッチを符号化し,レポート生成のための双方向表現(BERT)モデルを構築することで,パフォーマンスとポータブルなレポート生成機構を構築することができることを示す。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
論文 参考訳(メタデータ) (2023-12-03T15:56:09Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Graph Neural Networks for UnsupervisedDomain Adaptation of
Histopathological ImageAnalytics [22.04114134677181]
組織像解析のための教師なし領域適応のための新しい手法を提案する。
特徴空間に画像を埋め込むバックボーンと、ラベルで画像の監視信号をプロパゲートするグラフニューラルネットワーク層に基づいている。
実験では、4つの公開データセット上での最先端のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2020-08-21T04:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。