論文の概要: Multi-scale Efficient Graph-Transformer for Whole Slide Image
Classification
- arxiv url: http://arxiv.org/abs/2305.15773v1
- Date: Thu, 25 May 2023 06:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:56:25.791713
- Title: Multi-scale Efficient Graph-Transformer for Whole Slide Image
Classification
- Title(参考訳): 全スライド画像分類のためのマルチスケール能率グラフ変換器
- Authors: Saisai Ding, Juncheng Li, Jun Wang, Shihui Ying, Jun Shi
- Abstract要約: 本稿では,WSI分類のためのマルチスケール能率グラフ変換器(MEGT)フレームワークを提案する。
MEGTの鍵となる考え方は、低解像度で高解像度のパッチ埋め込みを処理するために、2つの独立したグラフベースのトランスフォーマー(EGT)ブランチを採用することである。
本稿では,特徴融合中の異なる解像度パッチ間のセマンティックギャップを軽減するための新しいMFFMを提案する。
- 参考スコア(独自算出の注目度): 16.19677745296922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The multi-scale information among the whole slide images (WSIs) is essential
for cancer diagnosis. Although the existing multi-scale vision Transformer has
shown its effectiveness for learning multi-scale image representation, it still
cannot work well on the gigapixel WSIs due to their extremely large image
sizes. To this end, we propose a novel Multi-scale Efficient Graph-Transformer
(MEGT) framework for WSI classification. The key idea of MEGT is to adopt two
independent Efficient Graph-based Transformer (EGT) branches to process the
low-resolution and high-resolution patch embeddings (i.e., tokens in a
Transformer) of WSIs, respectively, and then fuse these tokens via a
multi-scale feature fusion module (MFFM). Specifically, we design an EGT to
efficiently learn the local-global information of patch tokens, which
integrates the graph representation into Transformer to capture spatial-related
information of WSIs. Meanwhile, we propose a novel MFFM to alleviate the
semantic gap among different resolution patches during feature fusion, which
creates a non-patch token for each branch as an agent to exchange information
with another branch by cross-attention. In addition, to expedite network
training, a novel token pruning module is developed in EGT to reduce the
redundant tokens. Extensive experiments on TCGA-RCC and CAMELYON16 datasets
demonstrate the effectiveness of the proposed MEGT.
- Abstract(参考訳): スライド画像全体(WSI)のマルチスケール情報は,癌診断に不可欠である。
既存のマルチスケールビジョントランスフォーマーは、マルチスケール画像表現を学習する効果を示したが、非常に大きな画像サイズのため、依然としてギガピクセルのWSIではうまく動作しない。
そこで本研究では,WSI分類のためのマルチスケール能率グラフ変換器(MEGT)フレームワークを提案する。
MEGTのキーとなる考え方は、2つの独立したグラフベースのトランスフォーマー(EGT)ブランチを採用して、WSIの低解像度および高解像度のパッチ埋め込み(すなわちTransformerのトークン)を処理し、その後、これらのトークンをマルチスケールの機能融合モジュール(MFFM)を介して融合させることである。
具体的には,パッチトークンの局所的グローバル情報を効率的に学習するEGTを設計し,グラフ表現をTransformerに統合し,WSIの空間的関連情報をキャプチャする。
一方,機能融合中に異なる解像度パッチ間の意味的ギャップを緩和する新しいmffmを提案し,クロスアテンションによって他のブランチと情報を交換するエージェントとして,各ブランチに対して非パッチトークンを生成する。
さらに,ネットワークトレーニングの迅速化を図るため,EGTで新しいトークン刈りモジュールを開発し,冗長なトークンを減らす。
TCGA-RCCとCAMELYON16データセットの大規模な実験は、提案したMEGTの有効性を実証している。
関連論文リスト
- SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介した。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - Diagnose Like a Pathologist: Transformer-Enabled Hierarchical
Attention-Guided Multiple Instance Learning for Whole Slide Image
Classification [39.41442041007595]
複数のインスタンス学習とトランスフォーマーは、病理組織学的にWSI(Whole Slide Image)分類でますます人気がある。
本稿では,WSI を完全に活用するための階層型注意誘導型多重インスタンス学習フレームワークを提案する。
このフレームワーク内では、インテグレート・アテンション・トランスが提案され、トランスの性能をさらに向上する。
論文 参考訳(メタデータ) (2023-01-19T15:38:43Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。