Fugu-MT 論文翻訳(概要): Vim4Path: Self-Supervised Vision Mamba for Histopathology Images

論文の概要: Vim4Path: Self-Supervised Vision Mamba for Histopathology Images

arxiv url: http://arxiv.org/abs/2404.13222v2
Date: Sun, 26 May 2024 01:09:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 05:57:17.638467
Title: Vim4Path: Self-Supervised Vision Mamba for Histopathology Images
Title（参考訳）: Vim4Path: 病理画像のための自己監督型視覚マンバ
Authors: Ali Nasiri-Sarvi, Vincent Quoc-Huy Trinh, Hassan Rivaz, Mahdi S. Hosseini,
Abstract要約: 本稿では、状態空間モデルにインスパイアされたVision Mamba(Vim)アーキテクチャを、DINOフレームワークの計算病理学における表現学習に活用することを提案する。我々は、パッチレベルとスライドレベルの両方の分類において、Camelyon16データセット上でのVim対ビジョントランスフォーマー(ViT)の性能を評価する。
参考スコア（独自算出の注目度）: 9.271739983963458
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Representation learning from Gigapixel Whole Slide Images (WSI) poses a significant challenge in computational pathology due to the complicated nature of tissue structures and the scarcity of labeled data. Multi-instance learning methods have addressed this challenge, leveraging image patches to classify slides utilizing pretrained models using Self-Supervised Learning (SSL) approaches. The performance of both SSL and MIL methods relies on the architecture of the feature encoder. This paper proposes leveraging the Vision Mamba (Vim) architecture, inspired by state space models, within the DINO framework for representation learning in computational pathology. We evaluate the performance of Vim against Vision Transformers (ViT) on the Camelyon16 dataset for both patch-level and slide-level classification. Our findings highlight Vim's enhanced performance compared to ViT, particularly at smaller scales, where Vim achieves an 8.21 increase in ROC AUC for models of similar size. An explainability analysis further highlights Vim's capabilities, which reveals that Vim uniquely emulates the pathologist workflow-unlike ViT. This alignment with human expert analysis highlights Vim's potential in practical diagnostic settings and contributes significantly to developing effective representation-learning algorithms in computational pathology. We release the codes and pretrained weights at \url{https://github.com/AtlasAnalyticsLab/Vim4Path}.
Abstract（参考訳）: Gigapixel Whole Slide Images (WSI) からの表現学習は、組織構造の複雑な性質とラベル付きデータの不足により、計算病理学において重要な課題となっている。マルチインスタンス学習手法はこの課題に対処し、イメージパッチを活用し、自己監視学習(SSL)アプローチを用いた事前学習モデルを用いたスライドの分類を行っている。 SSLとMILの両方のパフォーマンスは、機能エンコーダのアーキテクチャに依存している。本稿では、状態空間モデルにインスパイアされたVision Mamba(Vim)アーキテクチャを、DINOフレームワークの計算病理学における表現学習に活用することを提案する。我々は、パッチレベルとスライドレベルの両方の分類において、Camelyon16データセット上でのVim対ビジョントランスフォーマー(ViT)の性能を評価する。以上の結果から,Vim は ViT と比較して性能が向上し,特に比較的小規模なモデルでは ROC AUC が8.21 増加していることが明らかとなった。説明可能性分析は、Vimの機能をさらに強調し、Vimが病理学者のワークフローに似ていないViTを独自にエミュレートしていることを明らかにした。この人間の専門的分析との整合性は、現実的な診断におけるヴィムの可能性を強調し、計算病理学における効果的な表現学習アルゴリズムの開発に大きく貢献する。コードと事前訓練されたウェイトは、 \url{https://github.com/AtlasAnalyticsLab/Vim4Path}でリリースします。

関連論文リスト

DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain [9.458951424465605]
Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2024-05-29T01:01:19Z)
Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文参考訳（メタデータ） (2024-02-29T16:29:53Z)
A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文参考訳（メタデータ） (2024-02-09T05:05:28Z)
GRASP: GRAph-Structured Pyramidal Whole Slide Image Representation [4.477527192030786]
本稿では,スライド画像全体(WSI)をデジタル病理学で処理するためのグラフ構造化多重画像化フレームワークGRASPを提案する。我々のアプローチは、WSIの処理における病理学者の振舞いと、WSIの階層構造から得られる利益をエミュレートするために設計されている。収束に基づくノード集約機構を導入したGRASPは、バランスの取れた精度で最先端の手法を高いマージンで上回る。
論文参考訳（メタデータ） (2024-02-06T00:03:44Z)
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。 Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文参考訳（メタデータ） (2024-01-17T18:56:18Z)
ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。 ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文参考訳（メタデータ） (2023-11-27T18:52:09Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Patch-level Representation Learning for Self-supervised Vision Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文参考訳（メタデータ） (2022-06-16T08:01:19Z)
Self-Supervised Vision Transformers Learn Visual Concepts in Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文参考訳（メタデータ） (2022-03-01T16:14:41Z)
Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか? 例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文参考訳（メタデータ） (2021-08-19T17:27:03Z)
Efficient Self-supervised Vision Transformers for Representation Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文参考訳（メタデータ） (2021-06-17T19:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。