論文の概要: ViT-V-Net: Vision Transformer for Unsupervised Volumetric Medical Image
Registration
- arxiv url: http://arxiv.org/abs/2104.06468v1
- Date: Tue, 13 Apr 2021 19:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:08:47.764828
- Title: ViT-V-Net: Vision Transformer for Unsupervised Volumetric Medical Image
Registration
- Title(参考訳): ViT-V-Net: Unsupervised Volumetric Medical Image Registration 用視覚変換器
- Authors: Junyu Chen, Yufan He, Eric C. Frey, Ye Li, Yong Du
- Abstract要約: 画像分類のための視覚変換器(ViT)は、画像の関連部分に焦点を合わせるために長距離空間関係を学習する純粋に自己注意に基づくモデルを使用する。
ViTとConvNetを橋渡しして医療画像登録を行うViT-V-Netを紹介します。
- 参考スコア(独自算出の注目度): 6.341962115322295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last decade, convolutional neural networks (ConvNets) have dominated
and achieved state-of-the-art performances in a variety of medical imaging
applications. However, the performances of ConvNets are still limited by
lacking the understanding of long-range spatial relations in an image. The
recently proposed Vision Transformer (ViT) for image classification uses a
purely self-attention-based model that learns long-range spatial relations to
focus on the relevant parts of an image. Nevertheless, ViT emphasizes the
low-resolution features because of the consecutive downsamplings, result in a
lack of detailed localization information, making it unsuitable for image
registration. Recently, several ViT-based image segmentation methods have been
combined with ConvNets to improve the recovery of detailed localization
information. Inspired by them, we present ViT-V-Net, which bridges ViT and
ConvNet to provide volumetric medical image registration. The experimental
results presented here demonstrate that the proposed architecture achieves
superior performance to several top-performing registration methods.
- Abstract(参考訳): 過去10年間で、畳み込みニューラルネットワーク(ConvNets)は、さまざまな医療画像アプリケーションにおいて最先端のパフォーマンスを支配し、達成してきた。
しかし、画像内の長距離空間関係の理解が欠如しているため、ConvNetsの性能は依然として制限されている。
最近提案された画像分類用視覚変換器(ViT)は、画像の関連部分に焦点を合わせるために長距離空間関係を学習する、純粋に自己注意に基づくモデルを用いている。
それでもvitは、連続的なダウンサンプリングによる低解像度の特徴を強調し、詳細なローカライズ情報の欠如により、画像登録に適さないとしている。
近年,複数のViTベースの画像分割手法がConvNetsと組み合わされ,詳細な位置情報の回復が図られている。
それらにインスパイアされたViT-V-Netは、VTとConvNetを橋渡し、ボリューム医療画像の登録を提供する。
提案するアーキテクチャは,いくつかのトップパフォーマンス登録手法よりも優れた性能を実現できることを示す。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンの分野で新しい研究の波をもたらした。
本稿では、iSAID上のリモートセンシング空中画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers [5.359378066251386]
視覚変換器(ViT)を用いた自己教師型学習は表現学習に有効であることが証明されている。
既存のViTベースのSSLアーキテクチャは、ViTバックボーンを完全に活用していない。
本稿では,ViTベースのSSLメソッドを標準化し,パッチトークンを効果的に活用するための新しいセマンティックグラフ一貫性(SGC)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-18T06:36:44Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - A Recent Survey of Vision Transformers for Medical Image Segmentation [2.4895533667182703]
ヴィジュアルトランスフォーマー(ViT)は、医用画像セグメンテーションの課題に対処するための有望な技術として登場した。
マルチスケールアテンション機構により、遠方構造間の長距離依存を効果的にモデル化することができる。
近年、研究者らは、ハイブリッドビジョントランスフォーマー(HVT)として知られるアーキテクチャにCNNを組み込む様々なViTベースのアプローチを考案した。
論文 参考訳(メタデータ) (2023-12-01T14:54:44Z) - ViR:the Vision Reservoir [10.881974985012839]
Vision Reservoir Computing (ViR) は視覚変換器 (ViT) と平行して画像分類を行う。
各画像を一定長さのトークン列に分割することで、ViRは、ほぼ完全に接続された位相を持つ純粋な貯水池を構築し、ViTのTransformerモジュールを置き換える。
ViRのパラメータの数はViTの約15%または5%であり、メモリフットプリントはViTの約20%から40%である。
論文 参考訳(メタデータ) (2021-12-27T07:07:50Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。