論文の概要: MAST: Video Polyp Segmentation with a Mixture-Attention Siamese
Transformer
- arxiv url: http://arxiv.org/abs/2401.12439v1
- Date: Tue, 23 Jan 2024 02:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 17:05:40.044461
- Title: MAST: Video Polyp Segmentation with a Mixture-Attention Siamese
Transformer
- Title(参考訳): MAST:Mixture-Attention Siamese Transformerを用いたビデオポリプセグメンテーション
- Authors: Geng Chen, Junqing Yang, Xiaozhou Pu, Ge-Peng Ji, Huan Xiong,
Yongsheng Pan, Hengfei Cui, Yong Xia
- Abstract要約: Mixture Siamese Transformer (MAST) は、正確なポリプセグメンテーションのためのミックスアテンション機構と長距離時間関係をモデル化する。
私たちの知る限りでは、MASTはビデオポリープセグメンテーションに特化した最初のトランスフォーマーモデルです。
大規模SUN-SEGベンチマークの実験は、最先端の競合他社と比較して、MASTの優れた性能を示している。
- 参考スコア(独自算出の注目度): 25.587368265837334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate segmentation of polyps from colonoscopy videos is of great
significance to polyp treatment and early prevention of colorectal cancer.
However, it is challenging due to the difficulties associated with modelling
long-range spatio-temporal relationships within a colonoscopy video. In this
paper, we address this challenging task with a novel Mixture-Attention Siamese
Transformer (MAST), which explicitly models the long-range spatio-temporal
relationships with a mixture-attention mechanism for accurate polyp
segmentation. Specifically, we first construct a Siamese transformer
architecture to jointly encode paired video frames for their feature
representations. We then design a mixture-attention module to exploit the
intra-frame and inter-frame correlations, enhancing the features with rich
spatio-temporal relationships. Finally, the enhanced features are fed to two
parallel decoders for predicting the segmentation maps. To the best of our
knowledge, our MAST is the first transformer model dedicated to video polyp
segmentation. Extensive experiments on the large-scale SUN-SEG benchmark
demonstrate the superior performance of MAST in comparison with the
cutting-edge competitors. Our code is publicly available at
https://github.com/Junqing-Yang/MAST.
- Abstract(参考訳): 大腸内視鏡検査におけるポリープの正確な分画は,ポリープ治療や早期大腸癌予防に重要である。
しかし,大腸内視鏡映像内の長期時空間関係のモデル化が困難であることから困難である。
本稿では,この課題に対して,高精度ポリプセグメンテーションのための混合アテンション機構と長距離時空間関係を明示的にモデル化する新しい混合アテンションシアーム変圧器(mast)を提案する。
具体的には,まず一対の映像フレームを相互にエンコードして特徴表現を行うsiamese変換器アーキテクチャを構築した。
次に、フレーム内およびフレーム間相関を利用して混合アテンションモジュールを設計し、豊富な時空間関係を持つ特徴を増強する。
最後に、拡張された特徴を2つの並列デコーダに供給し、セグメンテーションマップを予測する。
私たちの知る限りでは、MASTはビデオポリープセグメンテーションに特化した最初のトランスフォーマーモデルです。
大規模SUN-SEGベンチマークの大規模な実験は、最先端の競合と比較してMASTの優れた性能を示している。
私たちのコードはhttps://github.com/Junqing-Yang/MAST.comで公開されています。
関連論文リスト
- Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
CropMAEは、SiamMAEが導入したシームズ事前訓練の代替手法である。
本手法では,同じ画像から得られた2対の収穫画像を,異なる方法で収穫する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for
Semi-supervised Polyp Segmentation [52.06525450636897]
大腸癌の早期診断と治療において, 自動ポリープセグメンテーションが重要な役割を担っている。
既存の手法は、完全に教師されたトレーニングに大きく依存しており、大量のラベル付きデータと時間を要するピクセル単位のアノテーションを必要とする。
大腸内視鏡画像からの半教師付きポリープ(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - RetSeg: Retention-based Colorectal Polyps Segmentation Network [0.0]
ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらした。
ViTは、視覚データ処理においてコンテキスト認識を示し、堅牢で正確な予測を行う。
本稿では,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを紹介する。
論文 参考訳(メタデータ) (2023-10-09T06:43:38Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Stepwise Feature Fusion: Local Guides Global [14.394421688712052]
本稿では,ピラミッドトランスフォーマーエンコーダを用いた医用画像セグメンテーションのためのState-Of-The-Artモデルを提案する。
提案するプログレッシブ・ローカリティ・デコーダをピラミッドトランスフォーマーのバックボーンに適応させて,局所的特徴と注意分散を強調する。
論文 参考訳(メタデータ) (2022-03-07T10:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。