論文の概要: Beyond Self-Attention: Deformable Large Kernel Attention for Medical
Image Segmentation
- arxiv url: http://arxiv.org/abs/2309.00121v1
- Date: Thu, 31 Aug 2023 20:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 15:21:52.630277
- Title: Beyond Self-Attention: Deformable Large Kernel Attention for Medical
Image Segmentation
- Title(参考訳): 自己注意を超えて:医療画像分割のための変形可能な大カーネルアテンション
- Authors: Reza Azad, Leon Niggemeier, Michael Huttemann, Amirhossein Kazerouni,
Ehsan Khodapanah Aghdam, Yury Velichko, Ulas Bagci, Dorit Merhof
- Abstract要約: 我々は,大コンボリューションカーネルを用いて,ボリュームコンテキストを十分に理解するための注意機構であるtextbfDeformable Large Kernel Attention (D-LKA Attention) の概念を紹介した。
提案するアテンション機構は, 変形可能な畳み込みの利点を生かして, サンプリンググリッドを柔軟にワープし, モデルが多様なデータパターンに適切に適応できるようにする。
- 参考スコア(独自算出の注目度): 3.132430938881454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation has seen significant improvements with transformer
models, which excel in grasping far-reaching contexts and global contextual
information. However, the increasing computational demands of these models,
proportional to the squared token count, limit their depth and resolution
capabilities. Most current methods process D volumetric image data
slice-by-slice (called pseudo 3D), missing crucial inter-slice information and
thus reducing the model's overall performance. To address these challenges, we
introduce the concept of \textbf{Deformable Large Kernel Attention (D-LKA
Attention)}, a streamlined attention mechanism employing large convolution
kernels to fully appreciate volumetric context. This mechanism operates within
a receptive field akin to self-attention while sidestepping the computational
overhead. Additionally, our proposed attention mechanism benefits from
deformable convolutions to flexibly warp the sampling grid, enabling the model
to adapt appropriately to diverse data patterns. We designed both 2D and 3D
adaptations of the D-LKA Attention, with the latter excelling in cross-depth
data understanding. Together, these components shape our novel hierarchical
Vision Transformer architecture, the \textit{D-LKA Net}. Evaluations of our
model against leading methods on popular medical segmentation datasets
(Synapse, NIH Pancreas, and Skin lesion) demonstrate its superior performance.
Our code implementation is publicly available at the:
https://github.com/mindflow-institue/deformableLKA
- Abstract(参考訳): 医用画像のセグメンテーションはトランスフォーマーモデルで大幅に改善され、遠隔のコンテキストやグローバルなコンテキスト情報を把握できる。
しかし、これらのモデルの計算要求の増加は、正方形のトークン数に比例し、その深さと解像度の能力を制限する。
現在のほとんどの方法は、Dボリューム画像データスライス・バイ・スライス(擬似3D)を処理し、重要なインタースライス情報を欠いているため、モデル全体のパフォーマンスが低下する。
これらの課題に対処するために,大コンボリューションカーネルを用いてボリュームコンテキストを十分に理解するための注意機構である, \textbf{Deformable Large Kernel Attention (D-LKA Attention)} の概念を導入する。
このメカニズムは、計算オーバーヘッドを回避しながら、自己アテンションに似た受容フィールド内で動作します。
さらに,提案する注意機構は,変形可能な畳み込みによってサンプリンググリッドに柔軟に反動し,モデルが多様なデータパターンに適切に適応できるという利点がある。
我々はD-LKA注意の2次元および3次元適応を設計し、後者は深部データ理解に優れていた。
これらのコンポーネントは、新しい階層型ビジョントランスフォーマーアーキテクチャである \textit{D-LKA Net} を形成する。
一般医療用セグメンテーションデータセット (synapse, nih pancreas, skin lesion) におけるリード法に対する評価は, その優れた性能を示している。
私たちのコード実装は、https://github.com/mindflow-institue/deformableLKAで公開されています。
関連論文リスト
- SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain [48.440691680864745]
我々はLoGoNetと呼ばれる新しいニューラルネットワークアーキテクチャを導入する。
LoGoNetは、LKA(Large Kernel Attention)とデュアルエンコーディング戦略を利用して、U字型アーキテクチャに新しい特徴抽出器を統合する。
大規模ラベル付きデータセットの欠如を補うために,3次元画像に適した新しいSSL方式を提案する。
論文 参考訳(メタデータ) (2024-02-09T05:06:58Z) - PMFSNet: Polarized Multi-scale Feature Self-attention Network For
Lightweight Medical Image Segmentation [6.134314911212846]
現在の最先端の医用画像分割法は精度を優先するが、計算要求の増大とより大きなモデルサイズを犠牲にすることも多い。
計算冗長性を避けつつグローバルな局所特徴処理のバランスをとる新しい医用画像分割モデルPMFSNetを提案する。
長期依存関係をキャプチャするために,アテンション機構に基づいたマルチスケール機能拡張モジュールであるPMFSブロックをプラグインとして組み込んでいる。
論文 参考訳(メタデータ) (2024-01-15T10:26:47Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。