論文の概要: ViT-AE++: Improving Vision Transformer Autoencoder for Self-supervised
Medical Image Representations
- arxiv url: http://arxiv.org/abs/2301.07382v1
- Date: Wed, 18 Jan 2023 09:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:38:09.589997
- Title: ViT-AE++: Improving Vision Transformer Autoencoder for Self-supervised
Medical Image Representations
- Title(参考訳): ViT-AE++:自己教師型医用画像表現のための視覚変換器オートエンコーダの改良
- Authors: Chinmay Prabhakar, Hongwei Bran Li, Jiancheng Yang, Suprosana Shit,
Benedikt Wiestler, and Bjoern Menze
- Abstract要約: ビジョントランスフォーマーベースのオートエンコーダ(ViT-AE)は、パッチマスキング戦略を用いて有意義な潜在空間を学習する自己教師型学習技術である。
トレーニング段階における表現性を高めるために,2つの新たな損失関数を提案する。
自然画像と医用画像の両方でVT-AE++を広範囲に評価し,バニラVT-AEよりも一貫した改善を示した。
- 参考スコア(独自算出の注目度): 3.6284577335311554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning has attracted increasing attention as it learns
data-driven representation from data without annotations. Vision
transformer-based autoencoder (ViT-AE) by He et al. (2021) is a recent
self-supervised learning technique that employs a patch-masking strategy to
learn a meaningful latent space. In this paper, we focus on improving ViT-AE
(nicknamed ViT-AE++) for a more effective representation of both 2D and 3D
medical images. We propose two new loss functions to enhance the representation
during the training stage. The first loss term aims to improve
self-reconstruction by considering the structured dependencies and hence
indirectly improving the representation. The second loss term leverages
contrastive loss to directly optimize the representation from two randomly
masked views. As an independent contribution, we extended ViT-AE++ to a 3D
fashion for volumetric medical images. We extensively evaluate ViT-AE++ on both
natural images and medical images, demonstrating consistent improvement over
vanilla ViT-AE and its superiority over other contrastive learning approaches.
- Abstract(参考訳): 自己教師付き学習は、アノテーションなしでデータからデータ駆動表現を学ぶことで注目を集めている。
He et al. (2021) による視覚トランスフォーマーベースのオートエンコーダ (ViT-AE) は、パッチマスキング戦略を用いて有意義な潜在空間を学習する。
本稿では,2次元画像と3次元画像の両方をより効果的に表現するために,ViT-AE++(ViT-AE++)の改良に焦点を当てる。
学習段階における表現強化のための2つの新しい損失関数を提案する。
最初の損失項は、構造化された依存関係を考慮し、間接的に表現を改善することで自己再構成を改善することを目的としている。
第2の損失項は、対照的な損失を利用して、2つのランダムにマスキングされたビューから直接表現を最適化する。
独立したコントリビューションとして,VT-AE++をボリューム医療画像の3Dスタイルに拡張した。
自然画像と医用画像の両方においてVT-AE++を広範囲に評価し,バニラVT-AEよりも一貫した改善と,他のコントラスト学習アプローチよりも優位性を示した。
関連論文リスト
- Seeing the Pose in the Pixels: Learning Pose-Aware Representations in
Vision Transformers [1.8047694351309207]
視覚変換器(ViT)におけるポーズ認識表現学習のための2つの戦略を導入する。
Pose-aware Attention Block (PAAB)と呼ばれる最初の方法は、ビデオ内のポーズ領域に局所的な注意を向けるプラグインとプレイのViTブロックである。
第2の方法は Pose-Aware Auxiliary Task (PAAT) と呼ばれ、プライマリなViTタスクと協調して最適化された補助的なポーズ予測タスクを示す。
論文 参考訳(メタデータ) (2023-06-15T17:58:39Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Position Labels for Self-Supervised Vision Transformer [1.3406858660972554]
位置符号化は、入力画像の空間構造を捉えるために視覚変換器(ViT)にとって重要である。
絶対位置と相対位置を含む2次元画像専用の2つの位置ラベルを提案する。
我々の位置ラベルは、様々なViTの変種と組み合わさって、簡単にトランスフォーマーに接続できる。
論文 参考訳(メタデータ) (2022-06-10T10:29:20Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。