論文の概要: MoViT: Memorizing Vision Transformers for Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2303.15553v1
- Date: Mon, 27 Mar 2023 19:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:27:28.283947
- Title: MoViT: Memorizing Vision Transformers for Medical Image Analysis
- Title(参考訳): MoViT:医用画像解析用暗視変換器
- Authors: Yiqing Shen, Pengfei Guo, Jinpu Wu, Qianqi Huang, Jinyuan Zhou,
Shanshan Jiang, Mathias Unberath
- Abstract要約: 大規模データセットの必要性を軽減するために,覚醒視覚変換器 (MoViT) を提案する。
MoViTはトレーニングデータのわずか3.0%でViTの競争性能に達することができる。
- 参考スコア(独自算出の注目度): 11.374262066326517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The synergy of long-range dependencies from transformers and local
representations of image content from convolutional neural networks (CNNs) has
led to advanced architectures and increased performance for various medical
image analysis tasks due to their complementary benefits. However, compared
with CNNs, transformers require considerably more training data, due to a
larger number of parameters and an absence of inductive bias. The need for
increasingly large datasets continues to be problematic, particularly in the
context of medical imaging, where both annotation efforts and data protection
result in limited data availability. In this work, inspired by the human
decision-making process of correlating new ``evidence'' with previously
memorized ``experience'', we propose a Memorizing Vision Transformer (MoViT) to
alleviate the need for large-scale datasets to successfully train and deploy
transformer-based architectures. MoViT leverages an external memory structure
to cache history attention snapshots during the training stage. To prevent
overfitting, we incorporate an innovative memory update scheme, attention
temporal moving average, to update the stored external memories with the
historical moving average. For inference speedup, we design a prototypical
attention learning method to distill the external memory into smaller
representative subsets. We evaluate our method on a public histology image
dataset and an in-house MRI dataset, demonstrating that MoViT applied to varied
medical image analysis tasks, can outperform vanilla transformer models across
varied data regimes, especially in cases where only a small amount of annotated
data is available. More importantly, MoViT can reach a competitive performance
of ViT with only 3.0% of the training data.
- Abstract(参考訳): トランスフォーマーからの長距離依存と畳み込みニューラルネットワーク(cnns)からの画像コンテンツの局所表現の相乗効果は、その相補的な利点により、高度なアーキテクチャと様々な医用画像解析タスクのパフォーマンス向上につながった。
しかし、cnnと比較すると、トランスフォーマーは多くのパラメータと帰納バイアスの欠如のため、かなり多くのトレーニングデータを必要とする。
ますます大規模なデータセットの必要性は、特に医用画像の文脈において問題であり続けており、アノテーションの取り組みとデータ保護の両方がデータ可用性を制限している。
本研究は,新たな‘evidence’と従来記憶されていた‘`experience'とを関連付ける人間の意思決定プロセスにヒントを得て,大規模なデータセットの必要性を軽減し,トランスフォーマーベースのアーキテクチャをトレーニングおよびデプロイするための記憶型視覚変換器(MoViT)を提案する。
MoViTは、トレーニング段階の履歴注意スナップショットをキャッシュするために、外部メモリ構造を利用する。
オーバーフィッティングを防止するため,メモリ更新方式である注意時間移動平均法を取り入れ,記憶された外部記憶を履歴移動平均で更新する。
推論高速化のために、我々は外部メモリをより小さな代表サブセットに蒸留するプロトタイプ型注意学習法を設計する。
本手法は, 医用画像解析タスクに応用されたMoViTが, 特に少量の注釈データしか利用できない場合において, 様々なデータレギュラーにおいてバニラトランスフォーマーモデルより優れていることを示すため, パブリックヒストロジー画像データセットと社内MRIデータセットを用いて評価を行った。
さらに重要なのは、トレーニングデータのわずか3.0%で、MoViTの競合パフォーマンスに到達することだ。
関連論文リスト
- Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - Efficiently Training Vision Transformers on Structural MRI Scans for
Alzheimer's Disease Detection [2.359557447960552]
ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンアプリケーションのためのCNNの代替として登場した。
難易度に基づいて,脳神経画像の下流タスクに対するViTアーキテクチャの変種を検証した。
合成および実MRIスキャンで事前訓練した微調整型視覚変換器モデルを用いて、5%と9-10%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-03-14T20:18:12Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - MultiCrossViT: Multimodal Vision Transformer for Schizophrenia
Prediction using Structural MRI and Functional Network Connectivity Data [0.0]
Vision Transformer (ViT)は、現実世界のコンピュータビジョン問題に対処できる先駆的なディープラーニングフレームワークである。
ViTは畳み込みニューラルネットワーク(CNN)のような従来のディープラーニングモデルを上回ることが証明されている
論文 参考訳(メタデータ) (2022-11-12T19:07:25Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。