論文の概要: Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis
- arxiv url: http://arxiv.org/abs/2410.14195v1
- Date: Fri, 18 Oct 2024 06:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:18.691207
- Title: Rethinking Transformer for Long Contextual Histopathology Whole Slide Image Analysis
- Title(参考訳): スライド画像解析による長期的病理組織学のための変圧器の再検討
- Authors: Honglin Li, Yunlong Zhang, Pingyi Chen, Zhongyi Shui, Chenglu Zhu, Lin Yang,
- Abstract要約: ヒストホイルスライド画像(英語版)(WSI)解析は、医師の日常業務における臨床がん診断のゴールドスタンダードとなっている。
従来の手法では、スライドレベルラベルのみを与えられたスライドレベルの予測を可能にするために、マルチパスラーニングが一般的であった。
大規模なWSIにおける長いシーケンスの計算複雑性を軽減するため、HIPTではリージョンスライシング、TransMILでは完全な自己アテンションの近似を採用している。
- 参考スコア(独自算出の注目度): 9.090504201460817
- License:
- Abstract: Histopathology Whole Slide Image (WSI) analysis serves as the gold standard for clinical cancer diagnosis in the daily routines of doctors. To develop computer-aided diagnosis model for WSIs, previous methods typically employ Multi-Instance Learning to enable slide-level prediction given only slide-level labels. Among these models, vanilla attention mechanisms without pairwise interactions have traditionally been employed but are unable to model contextual information. More recently, self-attention models have been utilized to address this issue. To alleviate the computational complexity of long sequences in large WSIs, methods like HIPT use region-slicing, and TransMIL employs approximation of full self-attention. Both approaches suffer from suboptimal performance due to the loss of key information. Moreover, their use of absolute positional embedding struggles to effectively handle long contextual dependencies in shape-varying WSIs. In this paper, we first analyze how the low-rank nature of the long-sequence attention matrix constrains the representation ability of WSI modelling. Then, we demonstrate that the rank of attention matrix can be improved by focusing on local interactions via a local attention mask. Our analysis shows that the local mask aligns with the attention patterns in the lower layers of the Transformer. Furthermore, the local attention mask can be implemented during chunked attention calculation, reducing the quadratic computational complexity to linear with a small local bandwidth. Building on this, we propose a local-global hybrid Transformer for both computational acceleration and local-global information interactions modelling. Our method, Long-contextual MIL (LongMIL), is evaluated through extensive experiments on various WSI tasks to validate its superiority. Our code will be available at github.com/invoker-LL/Long-MIL.
- Abstract(参考訳): 病理組織学的全スライド画像(WSI)解析は、医師の日常業務における臨床がん診断のゴールドスタンダードとなっている。
WSIのコンピュータ支援診断モデルを開発するために、従来の手法では、スライドレベルラベルのみを与えられたスライドレベルの予測を可能にするために、マルチインスタンスラーニングが一般的であった。
これらのモデルの中で、対の相互作用を持たないバニラアテンション機構は伝統的に採用されてきたが、文脈情報をモデル化することはできない。
最近では、この問題に対処するために自己注意モデルが使われている。
大規模なWSIにおける長いシーケンスの計算複雑性を軽減するため、HIPTではリージョンスライシング、TransMILでは完全な自己アテンションの近似を採用している。
どちらのアプローチも、鍵情報の欠如により、最適以下の性能に悩まされる。
さらに、それらの絶対的な位置埋め込みは、形状が変化するWSIにおける長いコンテキスト依存を効果的に処理するために苦労します。
本稿では,WSIモデリングの低ランクな特徴が,WSIモデリングの表現能力をいかに制約するかを,まず分析する。
そこで我々は,局所的な注目マスクによる局所的相互作用に着目して,注目行列のランクを向上できることを実証した。
解析の結果,局所マスクはトランスフォーマーの下層における注意パターンと一致していることがわかった。
さらに、局所的な注意マスクは、チャンクされた注意計算中に実装することができ、局所的な帯域幅が小さい2次計算の複雑さを線形に抑えることができる。
そこで本研究では,ローカル・グローバル・ハイブリッド・トランスフォーマを用いて,計算加速度と局所・グローバル情報相互作用をモデル化する手法を提案する。
提案手法であるLong-contextual MIL (LongMIL) は,様々なWSIタスクに対する広範囲な実験により評価し,その優位性を検証した。
私たちのコードはgithub.com/invoker-LL/Long-MILで利用可能です。
関連論文リスト
- Agent Aggregator with Mask Denoise Mechanism for Histopathology Whole Slide Image Analysis [6.708196053187949]
病理組織学的解析は, 臨床診断における金の基準である。スライディング画像全体(WSI)と関心領域(ROI)の正確な分類は, 病理医の診断に有効である。
弱教師付き学習では、多重インスタンス学習(MIL)がWSI分類に有望なアプローチを示す。
マスク認知機構を有するエージェントアグリゲータであるAMD-MILを提案する。
論文 参考訳(メタデータ) (2024-09-18T03:02:19Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - Long-MIL: Scaling Long Contextual Multiple Instance Learning for
Histopathology Whole Slide Image Analysis [9.912061800841267]
病理組織の全スライド画像(WSI)を解析に用いる。
以前の方法は一般的にWSIを多数のパッチに分割し、WSI内のすべてのパッチを集約してスライドレベルの予測を行う。
本稿では,線形バイアスを注意に導入することにより,形状の異なる長文WSIの位置埋め込みを改善することを提案する。
論文 参考訳(メタデータ) (2023-11-21T03:08:47Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - TPMIL: Trainable Prototype Enhanced Multiple Instance Learning for Whole
Slide Image Classification [13.195971707693365]
我々は、弱い教師付きWSI分類のための訓練可能なプロトタイプ強化深層MILフレームワークを開発した。
本手法により, 異なる腫瘍のサブタイプ間の相関関係を明らかにすることができる。
提案手法を2つのWSIデータセット上でテストし,新たなSOTAを実現する。
論文 参考訳(メタデータ) (2023-05-01T07:39:19Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Local Attention Graph-based Transformer for Multi-target Genetic
Alteration Prediction [0.22940141855172028]
MIL(LA-MIL)のための汎用ローカルアテンショングラフを用いたトランスフォーマを提案する。
LA-MILは消化器癌に対する突然変異予測において最先端の結果が得られることを実証した。
これは、局所的な自己保持がグローバルモジュールと同等の依存性を十分にモデル化していることを示唆している。
論文 参考訳(メタデータ) (2022-05-13T14:24:24Z) - Learning A 3D-CNN and Transformer Prior for Hyperspectral Image
Super-Resolution [80.93870349019332]
本稿では,CNN の代わりに Transformer を用いて HSI の事前学習を行う新しい HSISR 手法を提案する。
具体的には、まず勾配アルゴリズムを用いてHSISRモデルを解き、次に展開ネットワークを用いて反復解過程をシミュレートする。
論文 参考訳(メタデータ) (2021-11-27T15:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。