論文の概要: Video Polyp Segmentation: A Deep Learning Perspective
- arxiv url: http://arxiv.org/abs/2203.14291v1
- Date: Sun, 27 Mar 2022 12:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 16:32:34.576802
- Title: Video Polyp Segmentation: A Deep Learning Perspective
- Title(参考訳): Video Polyp Segmentation: ディープラーニングの展望
- Authors: Ge-Peng Ji, Guobao Xiao, Yu-Cheng Chou, Deng-Ping Fan, Kai Zhao, Geng
Chen, Huazhu Fu, and Luc Van Gool
- Abstract要約: 本稿では,第1回総合ビデオポリプセグメンテーション(VPS)研究について紹介する。
まず、有名なSUNデータセットから158,690フレームを含む、SUN-SEGという高品質なフレーム単位のVPSデータセットを紹介します。
また,グローバルエンコーダ,ローカルエンコーダ,正規化自己保持ブロックからなる,シンプルだが効率的なベースラインを設計する。
- 参考スコア(独自算出の注目度): 97.70996418522748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the deep learning era, we present the first comprehensive video polyp
segmentation (VPS) study. Over the years, developments in VPS are not moving
forward with ease due to the lack of large-scale fine-grained segmentation
annotations. To tackle this issue, we first introduce a high-quality per-frame
annotated VPS dataset, named SUN-SEG, which includes 158,690 frames from the
famous SUN dataset. We provide additional annotations with diverse types, i.e.,
attribute, object mask, boundary, scribble, and polygon. Second, we design a
simple but efficient baseline, dubbed PNS+, consisting of a global encoder, a
local encoder, and normalized self-attention (NS) blocks. The global and local
encoders receive an anchor frame and multiple successive frames to extract
long-term and short-term feature representations, which are then progressively
updated by two NS blocks. Extensive experiments show that PNS+ achieves the
best performance and real-time inference speed (170fps), making it a promising
solution for the VPS task. Third, we extensively evaluate 13 representative
polyp/object segmentation models on our SUN-SEG dataset and provide
attribute-based comparisons. Benchmark results are available at https:
//github.com/GewelsJI/VPS.
- Abstract(参考訳): 深層学習時代には,第1回総合的ビデオポリプセグメンテーション(vps)研究を行った。
長年にわたり、VPSの開発は、大規模なきめ細かいセグメンテーションアノテーションが欠如しているため、容易に前進していません。
この問題に対処するために、私たちはまず、有名なSUNデータセットから158,690フレームを含む、SUN-SEGという高品質なフレーム単位のVPSデータセットを導入しました。
属性やオブジェクトマスク,バウンダリ,スクリブル,ポリゴンといった,さまざまなタイプのアノテーションも提供しています。
第2に、グローバルエンコーダ、ローカルエンコーダ、正規化自己アテンション(ns)ブロックからなるpns+と呼ばれる、シンプルで効率的なベースラインを設計した。
グローバルおよびローカルエンコーダはアンカーフレームと複数の連続フレームを受け取り、長期および短期の特徴表現を抽出し、2つのNSブロックによって徐々に更新する。
大規模な実験により、PNS+は最高の性能とリアルタイム推論速度(170fps)を達成し、VPSタスクに有望なソリューションであることが示された。
第3に、SUN-SEGデータセット上で13の代表的なポリプ/オブジェクトセグメンテーションモデルを評価し、属性に基づく比較を行った。
ベンチマーク結果はhttps: //github.com/gewelsji/vpsで確認できる。
関連論文リスト
- Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - Progressively Normalized Self-Attention Network for Video Polyp
Segmentation [88.53757948857196]
本稿では,ポリプビデオから表現を効率よく学習する新しい PNS-Net (Progressively Normalized Self-attention Network) を提案する。
当社のPNS-Netは,再帰性とCNNを完全に装備する,基本的正規化自己注意ブロックのみをベースとしています。
挑戦的なデータセットの実験は、提案されたNS-Netが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-05-18T12:20:00Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation [11.10636117512819]
本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
論文 参考訳(メタデータ) (2020-02-17T01:51:57Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。