論文の概要: Memory transformers for full context and high-resolution 3D Medical
Segmentation
- arxiv url: http://arxiv.org/abs/2210.05313v1
- Date: Tue, 11 Oct 2022 10:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:23:27.358638
- Title: Memory transformers for full context and high-resolution 3D Medical
Segmentation
- Title(参考訳): フルコンテキスト・高分解能3次元医療セグメンテーションのためのメモリトランスフォーマ
- Authors: Loic Themyr, Cl\'ement Rambour, Nicolas Thome, Toby Collins, Alexandre
Hostettler
- Abstract要約: 本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの基本的な考え方は、メモリトークンを学習して、フルレンジインタラクションを間接的にモデル化することだ。
BCV画像セグメンテーションデータセットの実験は、最先端のCNNやトランスフォーマーベースラインよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 76.93387214103863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models achieve state-of-the-art results for image segmentation.
However, achieving long-range attention, necessary to capture global context,
with high-resolution 3D images is a fundamental challenge. This paper
introduces the Full resolutIoN mEmory (FINE) transformer to overcome this
issue. The core idea behind FINE is to learn memory tokens to indirectly model
full range interactions while scaling well in both memory and computational
costs. FINE introduces memory tokens at two levels: the first one allows full
interaction between voxels within local image regions (patches), the second one
allows full interactions between all regions of the 3D volume. Combined, they
allow full attention over high resolution images, e.g. 512 x 512 x 256 voxels
and above. Experiments on the BCV image segmentation dataset shows better
performances than state-of-the-art CNN and transformer baselines, highlighting
the superiority of our full attention mechanism compared to recent transformer
baselines, e.g. CoTr, and nnFormer.
- Abstract(参考訳): トランスフォーマーモデルは画像分割のための最先端の結果を得る。
しかし,高精細な3d画像を用いて,グローバルな文脈を捉えるために必要な長距離的注意力を実現することは,重要な課題である。
本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの背後にある中核的な考え方は、メモリトークンを学習して、メモリと計算コストの両方でうまくスケーリングしながら、間接的にフルレンジインタラクションをモデル化することだ。
FINEはメモリトークンを2つのレベルに導入している。第1はローカルイメージ領域(パッチ)内のボクセル間の完全なインタラクションを許容し、第2は3Dボリュームの全領域間の完全なインタラクションを可能にする。
組み合わせることで、512 x 512 x 256ボクセルなど高解像度の画像に完全に注意を向けることができる。
bcvイメージセグメンテーションデータセットにおける実験は、最先端のcnnおよびtransformerベースラインよりも優れたパフォーマンスを示し、最近のtransformerベースライン、例えばcotrおよびnnformerと比較して、全注意機構の優位性を強調する。
関連論文リスト
- SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Memory-efficient Segmentation of High-resolution Volumetric MicroCT
Images [11.723370840090453]
本稿では,3次元高解像度画像分割のためのメモリ効率の高いネットワークアーキテクチャを提案する。
このネットワークは、2段階のU-netベースのカスケードフレームワークを通じて、グローバル機能とローカル機能の両方を組み込んでいる。
実験により, セグメント化精度とメモリ効率の両方の観点から, 最先端の3Dセグメンテーション法より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-31T16:42:48Z) - AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation [19.53151547706724]
トランスをベースとしたモデルは、医療画像セグメンテーションにおけるこれらの手法の探求に注目されている。
本稿では、畳み込み層の長周期モデリングにおける詳細特徴抽出能力と変圧器強度の両面を活かしたAxial Fusion Transformer UNet(AFTer-UNet)を提案する。
パラメータが少なく、GPUメモリのトレーニングも従来のトランスフォーマーベースのモデルよりも少ない。
論文 参考訳(メタデータ) (2021-10-20T06:47:28Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。