Fugu-MT 論文翻訳(概要): MAST: Video Polyp Segmentation with a Mixture-Attention Siamese Transformer

論文の概要: MAST: Video Polyp Segmentation with a Mixture-Attention Siamese Transformer

arxiv url: http://arxiv.org/abs/2401.12439v1
Date: Tue, 23 Jan 2024 02:18:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 17:05:40.044461
Title: MAST: Video Polyp Segmentation with a Mixture-Attention Siamese Transformer
Title（参考訳）: MAST:Mixture-Attention Siamese Transformerを用いたビデオポリプセグメンテーション
Authors: Geng Chen, Junqing Yang, Xiaozhou Pu, Ge-Peng Ji, Huan Xiong, Yongsheng Pan, Hengfei Cui, Yong Xia
Abstract要約: Mixture Siamese Transformer (MAST) は、正確なポリプセグメンテーションのためのミックスアテンション機構と長距離時間関係をモデル化する。私たちの知る限りでは、MASTはビデオポリープセグメンテーションに特化した最初のトランスフォーマーモデルです。大規模SUN-SEGベンチマークの実験は、最先端の競合他社と比較して、MASTの優れた性能を示している。
参考スコア（独自算出の注目度）: 25.587368265837334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate segmentation of polyps from colonoscopy videos is of great significance to polyp treatment and early prevention of colorectal cancer. However, it is challenging due to the difficulties associated with modelling long-range spatio-temporal relationships within a colonoscopy video. In this paper, we address this challenging task with a novel Mixture-Attention Siamese Transformer (MAST), which explicitly models the long-range spatio-temporal relationships with a mixture-attention mechanism for accurate polyp segmentation. Specifically, we first construct a Siamese transformer architecture to jointly encode paired video frames for their feature representations. We then design a mixture-attention module to exploit the intra-frame and inter-frame correlations, enhancing the features with rich spatio-temporal relationships. Finally, the enhanced features are fed to two parallel decoders for predicting the segmentation maps. To the best of our knowledge, our MAST is the first transformer model dedicated to video polyp segmentation. Extensive experiments on the large-scale SUN-SEG benchmark demonstrate the superior performance of MAST in comparison with the cutting-edge competitors. Our code is publicly available at https://github.com/Junqing-Yang/MAST.
Abstract（参考訳）: 大腸内視鏡検査におけるポリープの正確な分画は,ポリープ治療や早期大腸癌予防に重要である。しかし,大腸内視鏡映像内の長期時空間関係のモデル化が困難であることから困難である。本稿では,この課題に対して,高精度ポリプセグメンテーションのための混合アテンション機構と長距離時空間関係を明示的にモデル化する新しい混合アテンションシアーム変圧器(mast)を提案する。具体的には,まず一対の映像フレームを相互にエンコードして特徴表現を行うsiamese変換器アーキテクチャを構築した。次に、フレーム内およびフレーム間相関を利用して混合アテンションモジュールを設計し、豊富な時空間関係を持つ特徴を増強する。最後に、拡張された特徴を2つの並列デコーダに供給し、セグメンテーションマップを予測する。私たちの知る限りでは、MASTはビデオポリープセグメンテーションに特化した最初のトランスフォーマーモデルです。大規模SUN-SEGベンチマークの大規模な実験は、最先端の競合と比較してMASTの優れた性能を示している。私たちのコードはhttps://github.com/Junqing-Yang/MAST.comで公開されています。

関連論文リスト

VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation [4.027361638728112]
本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。実験により, 現状技術(SOTA)法の改良が示された。本研究は,Diceの類似度係数と交叉結合度の両方において,ネットワークの精度が3%以上,10%近く向上することが確認された。
論文参考訳（メタデータ） (2024-06-14T17:33:11Z)
MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文参考訳（メタデータ） (2024-05-28T09:46:09Z)
Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。 CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:04:19Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文参考訳（メタデータ） (2023-04-12T17:55:59Z)
Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文参考訳（メタデータ） (2023-01-12T09:53:57Z)
HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文参考訳（メタデータ） (2022-07-18T11:30:06Z)
TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文参考訳（メタデータ） (2022-03-30T16:31:49Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)
Stepwise Feature Fusion: Local Guides Global [14.394421688712052]
本稿では,ピラミッドトランスフォーマーエンコーダを用いた医用画像セグメンテーションのためのState-Of-The-Artモデルを提案する。提案するプログレッシブ・ローカリティ・デコーダをピラミッドトランスフォーマーのバックボーンに適応させて,局所的特徴と注意分散を強調する。
論文参考訳（メタデータ） (2022-03-07T10:36:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。