論文の概要: AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection
- arxiv url: http://arxiv.org/abs/2508.03458v1
- Date: Tue, 05 Aug 2025 13:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.994238
- Title: AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection
- Title(参考訳): AVPDN:ビデオベースポリープ検出のためのモーションロバスト学習とスケール適応表現
- Authors: Zilin Chen, Shengnan Lu,
- Abstract要約: 大腸内視鏡画像における多目的ポリープ検出のための頑健なフレームワークであるadaptive Video Polyp Detection Network (AVPDN)を提案する。
AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。
提案手法の有効性と一般化能力について,いくつかの挑戦的な公開ベンチマーク実験を行った。
- 参考スコア(独自算出の注目度): 0.0682074616451595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate detection of polyps is of critical importance for the early and intermediate stages of colorectal cancer diagnosis. Compared to static images, dynamic colonoscopy videos provide more comprehensive visual information, which can facilitate the development of effective treatment plans. However, unlike fixed-camera recordings, colonoscopy videos often exhibit rapid camera movement, introducing substantial background noise that disrupts the structural integrity of the scene and increases the risk of false positives. To address these challenges, we propose the Adaptive Video Polyp Detection Network (AVPDN), a robust framework for multi-scale polyp detection in colonoscopy videos. AVPDN incorporates two key components: the Adaptive Feature Interaction and Augmentation (AFIA) module and the Scale-Aware Context Integration (SACI) module. The AFIA module adopts a triple-branch architecture to enhance feature representation. It employs dense self-attention for global context modeling, sparse self-attention to mitigate the influence of low query-key similarity in feature aggregation, and channel shuffle operations to facilitate inter-branch information exchange. In parallel, the SACI module is designed to strengthen multi-scale feature integration. It utilizes dilated convolutions with varying receptive fields to capture contextual information at multiple spatial scales, thereby improving the model's denoising capability. Experiments conducted on several challenging public benchmarks demonstrate the effectiveness and generalization ability of the proposed method, achieving competitive performance in video-based polyp detection tasks.
- Abstract(参考訳): ポリープの正確な検出は早期・中期の大腸癌診断において重要である。
静的画像と比較して、動的大腸内視鏡ビデオはより包括的な視覚情報を提供し、効果的な治療計画の開発を容易にする。
しかし、固定カメラ記録とは異なり、コロノスコープビデオは、しばしばカメラの動きの速さを示し、シーンの構造的整合性を阻害し、偽陽性のリスクを増大させる背景ノイズを生じさせる。
これらの課題に対処するために,大腸内視鏡ビデオにおける多目的ポリープ検出のための堅牢なフレームワークであるAdaptive Video Polyp Detection Network (AVPDN)を提案する。
AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。
AFIAモジュールは、特徴表現を強化するためにトリプルブランチアーキテクチャを採用している。
グローバルなコンテキストモデリングには密集した自己アテンション、特徴集約における低クエリキー類似性の影響を軽減するための疎自己アテンション、ブランチ間の情報交換を容易にするチャネルシャッフル操作が使用される。
並行して、SACIモジュールはマルチスケールの機能統合を強化するように設計されている。
様々な受容場を持つ拡張畳み込みを利用して、複数の空間スケールでコンテキスト情報をキャプチャし、それによってモデルの認知能力を向上させる。
提案手法の有効性と一般化性を実証し,ビデオベースポリープ検出タスクにおける競合性能を実現する。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - AgentPolyp: Accurate Polyp Segmentation via Image Enhancement Agent [29.891645824604684]
AgentPolypはCLIPベースのセマンティックガイダンスと動的画像拡張をセグメンテーションのための軽量ニューラルネットワークに統合する新しいフレームワークである。
このフレームワークは、様々な拡張アルゴリズムとセグメンテーションネットワークのためのプラグインとプレイの拡張をサポートし、内視鏡デバイスのデプロイメント要件を満たしている。
論文 参考訳(メタデータ) (2025-04-15T08:39:35Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation [4.027361638728112]
本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。
実験により, 現状技術(SOTA)法の改良が示された。
本研究は,Diceの類似度係数と交叉結合度の両方において,ネットワークの精度が3%以上,10%近く向上することが確認された。
論文 参考訳(メタデータ) (2024-06-14T17:33:11Z) - RetSeg: Retention-based Colorectal Polyps Segmentation Network [0.0]
ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらした。
ViTは、視覚データ処理においてコンテキスト認識を示し、堅牢で正確な予測を行う。
本稿では,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを紹介する。
論文 参考訳(メタデータ) (2023-10-09T06:43:38Z) - YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast
Video Polyp Detection [80.68520401539979]
textbfYONA (textbfYou textbfOnly textbfNeed one textbfAdjacent Reference-frame)は、ビデオポリープ検出のための効率的なエンドツーエンドのトレーニングフレームワークである。
提案したYONAは,従来の最先端の競合他社よりも精度と速度の両面で優れています。
論文 参考訳(メタデータ) (2023-06-06T13:53:15Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - Real-time automatic polyp detection in colonoscopy using feature
enhancement module and spatiotemporal similarity correlation unit [34.28382404976628]
畳み込みニューラルネットワーク(CNN)に基づく最先端手法
本手法は,2次元CNNを用いたリアルタイム物体検出ネットワークと時間情報を組み合わせる。
本手法は感度,精度,特異性を向上し,臨床大腸内視鏡に応用できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-25T03:40:30Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。