論文の概要: CMSA-Net: Causal Multi-scale Aggregation with Adaptive Multi-source Reference for Video Polyp Segmentation
- arxiv url: http://arxiv.org/abs/2602.22821v1
- Date: Thu, 26 Feb 2026 10:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.636183
- Title: CMSA-Net: Causal Multi-scale Aggregation with Adaptive Multi-source Reference for Video Polyp Segmentation
- Title(参考訳): CMSA-Net:ビデオポリプセグメンテーションのための適応型マルチソース参照による因果的マルチスケールアグリゲーション
- Authors: Tong Wang, Yaolei Qi, Siwen Wang, Imran Razzak, Guanyu Yang, Yutong Xie,
- Abstract要約: ビデオポリープセグメンテーション(VPS)は、コンピュータ支援大腸内視鏡検査において重要な課題であり、医師が検査中にポリープを正確に見つけ、追跡するのに役立つ。
VPSは、ポリープが周囲の粘膜によく似ているため、意味的識別が弱いため、難しいままである。
これらの課題に対処するために,CMSA-Netという堅牢なフレームワークを提案する。
CMSA-Netは最先端の性能を達成し,セグメント化精度とリアルタイム臨床応用性とのバランスが良好であることを示す。
- 参考スコア(独自算出の注目度): 21.421639001011993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video polyp segmentation (VPS) is an important task in computer-aided colonoscopy, as it helps doctors accurately locate and track polyps during examinations. However, VPS remains challenging because polyps often look similar to surrounding mucosa, leading to weak semantic discrimination. In addition, large changes in polyp position and scale across video frames make stable and accurate segmentation difficult. To address these challenges, we propose a robust VPS framework named CMSA-Net. The proposed network introduces a Causal Multi-scale Aggregation (CMA) module to effectively gather semantic information from multiple historical frames at different scales. By using causal attention, CMA ensures that temporal feature propagation follows strict time order, which helps reduce noise and improve feature reliability. Furthermore, we design a Dynamic Multi-source Reference (DMR) strategy that adaptively selects informative and reliable reference frames based on semantic separability and prediction confidence. This strategy provides strong multi-frame guidance while keeping the model efficient for real-time inference. Extensive experiments on the SUN-SEG dataset demonstrate that CMSA-Net achieves state-of-the-art performance, offering a favorable balance between segmentation accuracy and real-time clinical applicability.
- Abstract(参考訳): ビデオポリープセグメンテーション(VPS)は、コンピュータ支援大腸内視鏡検査において重要な課題であり、医師が検査中にポリープを正確に見つけ、追跡するのに役立つ。
しかし、VPSは、ポリープが周囲の粘膜によく似ているため、意味的識別が弱いため、難しいままである。
さらに、ビデオフレーム間のポリプ位置とスケールの大きな変化は、安定かつ正確なセグメンテーションを困難にしている。
これらの課題に対処するため、CMSA-Netという堅牢なVPSフレームワークを提案する。
提案するネットワークでは,複数の履歴フレームから異なるスケールで意味情報を効果的に収集するコーサル・マルチスケール・アグリゲーション(CMA)モジュールを導入している。
因果的注意を用いて、CMAは時間的特徴伝搬が厳密な時間順に従うことを保証し、ノイズの低減と特徴信頼性の向上に役立つ。
さらに、セマンティックセパビリティと予測信頼度に基づいて、情報的かつ信頼性の高い参照フレームを適応的に選択する動的マルチソース参照(DMR)戦略を設計する。
この戦略は、モデルをリアルタイム推論に効率よく保ちながら、強力なマルチフレームガイダンスを提供する。
SUN-SEGデータセットの大規模な実験により、CMSA-Netは最先端のパフォーマンスを達成し、セグメンテーション精度とリアルタイム臨床応用のバランスが良好であることを実証した。
関連論文リスト
- FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection [0.0682074616451595]
大腸内視鏡画像における多目的ポリープ検出のための頑健なフレームワークであるadaptive Video Polyp Detection Network (AVPDN)を提案する。
AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。
提案手法の有効性と一般化能力について,いくつかの挑戦的な公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2025-08-05T13:59:18Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - RetSeg: Retention-based Colorectal Polyps Segmentation Network [0.0]
ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらした。
ViTは、視覚データ処理においてコンテキスト認識を示し、堅牢で正確な予測を行う。
本稿では,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを紹介する。
論文 参考訳(メタデータ) (2023-10-09T06:43:38Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - Adaptive Context Selection for Polyp Segmentation [99.9959901908053]
本稿では,ローカルコンテキストアテンション(LCA)モジュール,グローバルコンテキストモジュール(GCM)モジュール,適応選択モジュール(ASM)モジュールで構成される適応コンテキスト選択に基づくエンコーダデコーダフレームワークを提案する。
LCAモジュールは、エンコーダ層からデコーダ層へローカルなコンテキスト機能を提供する。
GCMは、グローバルなコンテキストの特徴をさらに探求し、デコーダ層に送信することを目的としている。ASMは、チャンネルワイドアテンションを通じて、コンテキスト特徴の適応的選択と集約に使用される。
論文 参考訳(メタデータ) (2023-01-12T04:06:44Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。