論文の概要: ModeT: Learning Deformable Image Registration via Motion Decomposition
Transformer
- arxiv url: http://arxiv.org/abs/2306.05688v1
- Date: Fri, 9 Jun 2023 06:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:38:52.357913
- Title: ModeT: Learning Deformable Image Registration via Motion Decomposition
Transformer
- Title(参考訳): ModeT: 運動分解変換器による変形可能な画像登録の学習
- Authors: Haiqiao Wang, Dong Ni, and Yi Wang
- Abstract要約: 本稿では,複数のモーダルを明示的にモデル化する新しい動作分解変換器 (ModeT) を提案する。
提案手法は,現状の登録ネットワークやトランスフォーマーよりも優れている。
- 参考スコア(独自算出の注目度): 7.629385629884155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer structures have been widely used in computer vision and have
recently made an impact in the area of medical image registration. However, the
use of Transformer in most registration networks is straightforward. These
networks often merely use the attention mechanism to boost the feature learning
as the segmentation networks do, but do not sufficiently design to be adapted
for the registration task. In this paper, we propose a novel motion
decomposition Transformer (ModeT) to explicitly model multiple motion
modalities by fully exploiting the intrinsic capability of the Transformer
structure for deformation estimation. The proposed ModeT naturally transforms
the multi-head neighborhood attention relationship into the multi-coordinate
relationship to model multiple motion modes. Then the competitive weighting
module (CWM) fuses multiple deformation sub-fields to generate the resulting
deformation field. Extensive experiments on two public brain magnetic resonance
imaging (MRI) datasets show that our method outperforms current
state-of-the-art registration networks and Transformers, demonstrating the
potential of our ModeT for the challenging non-rigid deformation estimation
problem. The benchmarks and our code are publicly available at
https://github.com/ZAX130/SmileCode.
- Abstract(参考訳): Transformerの構造はコンピュータビジョンで広く使われており、最近は医療画像登録の領域に影響を与えている。
しかし、ほとんどの登録ネットワークでのtransformerの使用は簡単である。
これらのネットワークは、セグメンテーションネットワークのように機能学習を促進するために単にアテンション機構を使用するが、登録タスクに適合するほど設計が不十分である。
本稿では, 変形推定のための変圧器構造の固有特性を十分に活用し, マルチモーションモダリティを明示的にモデル化する新しい動き分解変圧器(modet)を提案する。
提案したModeTは,マルチヘッド近傍のアテンション関係をマルチコーディネート関係に自然変換し,マルチモーションモードをモデル化する。
そして、競争重みモジュール(CWM)が複数の変形サブフィールドを融合して、結果として生じる変形場を生成する。
2つのパブリック脳磁気共鳴画像(MRI)データセットの広範囲な実験により、我々の手法は現在の登録ネットワークやトランスフォーマーよりも優れており、この非剛性変形推定問題に対するModeTの可能性を示している。
ベンチマークとコードはhttps://github.com/ZAX130/SmileCode.comで公開されている。
関連論文リスト
- ModeTv2: GPU-accelerated Motion Decomposition Transformer for Pairwise Optimization in Medical Image Registration [6.217733993535475]
変形可能な画像登録は、疾患の診断と画像誘導の介入を支援する医療画像において重要な役割を担っている。
従来の反復的手法は遅いが、ディープラーニング(DL)はソリューションを加速するが、ユーザビリティと精度の課題に直面している。
本研究では,従来の手法に類似した優れたペアワイズ最適化(PO)を示す改良型モーショントランスフォーマー(ModeTv2)演算子を用いたピラミッドネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-25T08:09:22Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism
for a Deep Segmentation Model [4.320393382724066]
畳み込みニューラルネットワーク(CNN)は、医療画像処理時代の主流技術である。
本稿では,Transformerモジュールをエンコーダとスキップ接続の両方に統合する,新しいディープセグメンテーションフレームワークであるTrans-Normを提案する。
論文 参考訳(メタデータ) (2022-07-27T09:54:10Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Symmetric Transformer-based Network for Unsupervised Image Registration [4.258536928793156]
本稿では,従来のトランスフォーマーのパラメータを低減する,畳み込みに基づく効率的なマルチヘッド自己アテンション(CEMSA)ブロックを提案する。
提案したCEMSAに基づいて,新しいSymmetric Transformer-based model(SymTrans)を提案する。
実験結果から,提案手法は画像登録における最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2022-04-28T15:45:09Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。