論文の概要: Masked Attention as a Mechanism for Improving Interpretability of Vision Transformers
- arxiv url: http://arxiv.org/abs/2404.18152v1
- Date: Sun, 28 Apr 2024 12:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 17:43:14.516006
- Title: Masked Attention as a Mechanism for Improving Interpretability of Vision Transformers
- Title(参考訳): 視覚変換器の解釈性向上機構としてのマスケインテンション
- Authors: Clément Grisi, Geert Litjens, Jeroen van der Laak,
- Abstract要約: Vision Transformerは、イメージを通常のグリッドに従って小さなパッチに分割することで処理する。
視覚変換器の注意機構の背景を暗黙的に隠蔽する新しい手法を提案する。
これにより、背景パッチに対応するトークンが最終的なイメージ表現に寄与しないことが保証される。
- 参考スコア(独自算出の注目度): 5.037784065945863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers are at the heart of the current surge of interest in foundation models for histopathology. They process images by breaking them into smaller patches following a regular grid, regardless of their content. Yet, not all parts of an image are equally relevant for its understanding. This is particularly true in computational pathology where background is completely non-informative and may introduce artefacts that could mislead predictions. To address this issue, we propose a novel method that explicitly masks background in Vision Transformers' attention mechanism. This ensures tokens corresponding to background patches do not contribute to the final image representation, thereby improving model robustness and interpretability. We validate our approach using prostate cancer grading from whole-slide images as a case study. Our results demonstrate that it achieves comparable performance with plain self-attention while providing more accurate and clinically meaningful attention heatmaps.
- Abstract(参考訳): 視覚トランスフォーマーは、現在の病理病理学の基礎モデルへの関心の高まりの中心にある。
コンテンツに関係なく、通常のグリッドに従って小さなパッチに分割することで、イメージを処理します。
しかし、画像のすべての部分が、その理解に等しく関係しているわけではない。
これは、背景は完全に非形式的であり、予測を誤解させる可能性のある人工物を導入することができる計算病理学において特に当てはまる。
この問題に対処するために,視覚変換器の注意機構の背景を暗黙的に隠蔽する新しい手法を提案する。
これにより、背景パッチに対応するトークンが最終的なイメージ表現に寄与しないことが保証され、モデルの堅牢性と解釈可能性が改善される。
本研究は,前立腺癌による全スライディング画像からの悪性度評価を事例として検討した。
以上の結果から,より正確で臨床的に意味のある熱マップを提供するとともに,自己注意と同等の性能を達成できることが示唆された。
関連論文リスト
- Learning Nuclei Representations with Masked Image Modelling [0.41998444721319206]
Masked Image Modelling (MIM) は強力な自己教師付き表現学習パラダイムである。
核レベルでのHemotoxylin & Eosin(H&E)染色画像のリッチな意味表現をMIMで捉える能力を示す。
論文 参考訳(メタデータ) (2023-06-29T17:20:05Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - A New Perspective to Boost Vision Transformer for Medical Image
Classification [33.215289791017064]
本稿では,トランスフォーマーバックボーンを用いた医用画像分類のための自己教師付き学習手法を提案する。
我々のBOLTは、自己教師型表現学習のための2つのネットワーク、すなわちオンラインとターゲットのブランチで構成されています。
医療画像分類におけるBOLTの優位性は,ImageNetの事前学習量や最先端の自己教師型学習手法と比較して検証した。
論文 参考訳(メタデータ) (2023-01-03T07:45:59Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z) - CAT: Cross Attention in Vision Transformer [39.862909079452294]
クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
論文 参考訳(メタデータ) (2021-06-10T14:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。