論文の概要: First-frame Supervised Video Polyp Segmentation via Propagative and Semantic Dual-teacher Network
- arxiv url: http://arxiv.org/abs/2412.16503v1
- Date: Sat, 21 Dec 2024 06:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:46.493527
- Title: First-frame Supervised Video Polyp Segmentation via Propagative and Semantic Dual-teacher Network
- Title(参考訳): Propagative and Semantic Dual-Teacher Networkによる第1フレーム監視ビデオポリプセグメンテーション
- Authors: Qiang Hu, Mei Liu, Qiang Li, Zhiwei Wang,
- Abstract要約: ビデオポリープセグメンテーションは消化管がんスクリーニングにおいて重要な役割を担っている。
ビデオの長さに関わらず、初めてアノテーションのコストをポリプビデオあたり1フレームに削減しました。
PSDNetはプロパゲーティブな教師とセマンティックな教師の2つの異なるタイプの教師を雇用している。
- 参考スコア(独自算出の注目度): 15.213681514145346
- License:
- Abstract: Automatic video polyp segmentation plays a critical role in gastrointestinal cancer screening, but the cost of frameby-frame annotations is prohibitively high. While sparse-frame supervised methods have reduced this burden proportionately, the cost remains overwhelming for long-duration videos and large-scale datasets. In this paper, we, for the first time, reduce the annotation cost to just a single frame per polyp video, regardless of the video's length. To this end, we introduce a new task, First-Frame Supervised Video Polyp Segmentation (FSVPS), and propose a novel Propagative and Semantic Dual-Teacher Network (PSDNet). Specifically, PSDNet adopts a teacher-student framework but employs two distinct types of teachers: the propagative teacher and the semantic teacher. The propagative teacher is a universal object tracker that propagates the first-frame annotation to subsequent frames as pseudo labels. However, tracking errors may accumulate over time, gradually degrading the pseudo labels and misguiding the student model. To address this, we introduce the semantic teacher, an exponential moving average of the student model, which produces more stable and time-invariant pseudo labels. PSDNet merges the pseudo labels from both teachers using a carefully-designed back-propagation strategy. This strategy assesses the quality of the pseudo labels by tracking them backward to the first frame. High-quality pseudo labels are more likely to spatially align with the firstframe annotation after this backward tracking, ensuring more accurate teacher-to-student knowledge transfer and improved segmentation performance. Benchmarking on SUN-SEG, the largest VPS dataset, demonstrates the competitive performance of PSDNet compared to fully-supervised approaches, and its superiority over sparse-frame supervised state-of-the-arts with a minimum improvement of 4.5% in Dice score.
- Abstract(参考訳): 自動ビデオポリープセグメンテーションは消化管がん検診において重要な役割を担っているが、フレームバイフレームアノテーションのコストは違法に高い。
スパースフレームの監督手法は、この負担を比例的に低減してきたが、長期化ビデオや大規模データセットでは、コストが圧倒的である。
本稿では,ビデオの長さに関わらず,初めてアノテーションのコストをポリプビデオあたりの1フレームに削減する。
この目的のために,FSVPS(First-Frame Supervised Video Polyp Segmentation)という新しいタスクを導入し,PSDNet(Propagative and Semantic Dual-Teacher Network)を提案する。
具体的には、PSDNetは教師中心のフレームワークを採用しているが、プロパゲーティブな教師とセマンティックな教師という2つの異なるタイプの教師を雇っている。
伝播型教師は、最初のフレームアノテーションを後続のフレームに擬似ラベルとして伝播する普遍的なオブジェクトトラッカーである。
しかし、追跡エラーは時間の経過とともに蓄積し、擬似ラベルを徐々に劣化させ、学生モデルを誤解させる。
これを解決するために,学生モデルの指数移動平均である意味教師を導入し,より安定的で時間不変な擬似ラベルを生成する。
PSDNetは、慎重に設計されたバックプロパゲーション戦略を使用して、両方の教師の擬似ラベルをマージする。
この戦略は、擬似ラベルの質を第1フレームに遡って追跡することで評価する。
高品質な擬似ラベルは、後向きの追跡の後、第1フレームのアノテーションと空間的に一致しやすく、より正確な教師から学生への知識伝達とセグメンテーション性能の向上が保証される。
最大のVPSデータセットであるSUN-SEGのベンチマークでは、完全に監督されたアプローチと比較してPSDNetの競合性能が示され、Diceスコアの4.5%を最小限に改善したスパースフレームによる最先端技術よりも優れていることが示されている。
関連論文リスト
- Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024 [12.274092278786966]
信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。
本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。
CVPR 2024におけるワイルドチャレンジにおけるビデオ・シーン・パーシングの第1位を獲得した。
論文 参考訳(メタデータ) (2024-06-02T01:37:26Z) - Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding [70.31050639330603]
ビデオ段落の接頭辞は、意味的関係と時間的順序を持つ複数の文を、トリミングされていないビデオからローカライズすることを目的としている。
既存のVPGアプローチは、かなりの数の時間ラベルに大きく依存している。
我々は、時間的アノテーションの必要性を排除するために、Wakly-Supervised Video paragraph Grounding (WSVPG)を導入し、探索する。
論文 参考訳(メタデータ) (2024-03-18T04:30:31Z) - Switching Temporary Teachers for Semi-Supervised Semantic Segmentation [45.20519672287495]
半教師付きセマンティックセグメンテーションで一般的な教師/学生のフレームワークは、主に指数的移動平均(EMA)を用いて、学生の量に基づいて教師の重みを更新する。
本稿では,学生のカップリング問題を軽減するために,2つの臨時教員を兼ねた,シンプルで効果的な方法であるデュアル教師を紹介する。
論文 参考訳(メタデータ) (2023-10-28T08:49:16Z) - Two-shot Video Object Segmentation [35.48207692959968]
少ない注釈付きビデオでビデオオブジェクトセグメンテーションモデルを訓練する。
ラベル付きフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化する。
初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:56Z) - Semi-Supervised Semantic Segmentation via Gentle Teaching Assistant [72.4512562104361]
擬似ラベル付きラベル付きラベル付きデータは,特徴抽出器における代表的特徴の学習を容易にすることができると論じる。
そこで本研究では,擬似ラベルが特徴抽出器やマスク予測器に与える影響を解消する新しい枠組みであるジェントル指導アシスタント(GTA-Seg)を提案する。
論文 参考訳(メタデータ) (2023-01-18T07:11:24Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。
ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。
本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T05:59:41Z) - Video Polyp Segmentation: A Deep Learning Perspective [97.70996418522748]
本稿では,第1回総合ビデオポリプセグメンテーション(VPS)研究について紹介する。
まず、有名なSUNデータセットから158,690フレームを含む、SUN-SEGという高品質なフレーム単位のVPSデータセットを紹介します。
また,グローバルエンコーダ,ローカルエンコーダ,正規化自己保持ブロックからなる,シンプルだが効率的なベースラインを設計する。
論文 参考訳(メタデータ) (2022-03-27T12:40:10Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。