論文の概要: Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation
- arxiv url: http://arxiv.org/abs/2210.08066v1
- Date: Fri, 14 Oct 2022 19:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:51:24.192280
- Title: Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation
- Title(参考訳): 医用画像分割と少数ショット領域適応のための視覚変換器の最適化
- Authors: Qianying Liu, Chaitanya Kaul, Christos Anagnostopoulos, Roderick
Murray-Smith, Fani Deligianni
- Abstract要約: 我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 11.690799827071606
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The adaptation of transformers to computer vision is not straightforward
because the modelling of image contextual information results in quadratic
computational complexity with relation to the input features. Most of existing
methods require extensive pre-training on massive datasets such as ImageNet and
therefore their application to fields such as healthcare is less effective.
CNNs are the dominant architecture in computer vision tasks because
convolutional filters can effectively model local dependencies and reduce
drastically the parameters required. However, convolutional filters cannot
handle more complex interactions, which are beyond a small neighbour of pixels.
Furthermore, their weights are fixed after training and thus they do not take
into consideration changes in the visual input. Inspired by recent work on
hybrid visual transformers with convolutions and hierarchical transformers, we
propose Convolutional Swin-Unet (CS-Unet) transformer blocks and optimise their
settings with relation to patch embedding, projection, the feed-forward
network, up sampling and skip connections. CS-Unet can be trained from scratch
and inherits the superiority of convolutions in each feature process phase. It
helps to encode precise spatial information and produce hierarchical
representations that contribute to object concepts at various scales.
Experiments show that CS-Unet without pre-training surpasses other
state-of-the-art counterparts by large margins on two medical CT and MRI
datasets with fewer parameters. In addition, two domain-adaptation experiments
on optic disc and polyp image segmentation further prove that our method is
highly generalizable and effectively bridges the domain gap between images from
different sources.
- Abstract(参考訳): コンピュータビジョンへの変換器の適応は、画像コンテキスト情報のモデリングが入力特徴と関連して2次計算複雑性をもたらすため、簡単ではない。
既存の方法の多くは、imagenetのような巨大なデータセットの広範な事前トレーニングを必要とするため、医療などの分野への応用は効果が低い。
cnnは、畳み込みフィルタが効果的に局所依存をモデル化し、必要なパラメータを大幅に削減できるため、コンピュータビジョンタスクにおいて支配的なアーキテクチャである。
しかし、畳み込みフィルタはより複雑な相互作用を処理できない。
さらに、トレーニング後に重みが固定され、視覚入力の変化を考慮していない。
コンボリューションと階層変換を用いたハイブリッドビジュアルトランスフォーマーの研究に触発されて,コンボリューショナル・スウィン・ウネット(CS-Unet)トランスフォーマーブロックを提案し,パッチ埋め込み,プロジェクション,フィードフォワードネットワーク,サンプリングおよびスキップ接続に関連する設定を最適化する。
cs-unetはスクラッチからトレーニングでき、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
正確な空間情報をエンコードし、様々なスケールでオブジェクトの概念に寄与する階層表現を生成する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
さらに、光学ディスクとポリプ画像セグメント化に関する2つの領域適応実験により、本手法が高度に一般化可能であり、異なるソースの画像間の領域ギャップを効果的に橋渡しすることを示した。
関連論文リスト
- TransResNet: Integrating the Strengths of ViTs and CNNs for High Resolution Medical Image Segmentation via Feature Grafting [6.987177704136503]
医用画像領域で高解像度画像が好ましいのは、基礎となる方法の診断能力を大幅に向上させるためである。
医用画像セグメンテーションのための既存のディープラーニング技術のほとんどは、空間次元が小さい入力画像に最適化されており、高解像度画像では不十分である。
我々はTransResNetという並列処理アーキテクチャを提案し、TransformerとCNNを並列的に組み合わせ、マルチ解像度画像から特徴を独立して抽出する。
論文 参考訳(メタデータ) (2024-10-01T18:22:34Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - CiT-Net: Convolutional Neural Networks Hand in Hand with Vision
Transformers for Medical Image Segmentation [10.20771849219059]
医用画像分割のための畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(CiT-Net)のハイブリッドアーキテクチャを提案する。
我々のCit-Netは、一般的なSOTA法よりも優れた医用画像セグメンテーション結果を提供する。
論文 参考訳(メタデータ) (2023-06-06T03:22:22Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Pyramid Medical Transformer for Medical Image Segmentation [8.157373686645318]
ピラミッド型ネットワークアーキテクチャ(PMTrans)を用いたマルチスケールアテンションとCNN特徴抽出を統合した新しい手法を開発した。
2つの医用画像データセット(腺セグメンテーションとMoNuSegデータセット)の実験結果によると、PMTransは最新のCNNベースおよびトランスフォーマーベースの医療用画像セグメンテーションモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-29T23:57:20Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。