論文の概要: WeClick: Weakly-Supervised Video Semantic Segmentation with Click
Annotations
- arxiv url: http://arxiv.org/abs/2107.03088v1
- Date: Wed, 7 Jul 2021 09:12:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:12:39.221175
- Title: WeClick: Weakly-Supervised Video Semantic Segmentation with Click
Annotations
- Title(参考訳): WeClick:クリック注釈付きビデオセマンティックセマンティックセグメンテーション
- Authors: Peidong Liu, Zibin He, Xiyu Yan, Yong Jiang, Shutao Xia, Feng Zheng,
Maowei Hu
- Abstract要約: WeClick と呼ばれるクリックアノテーション付きビデオセマンティックセマンティックセマンティックパイプラインを提案する。
詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルによる直接トレーニングはセグメンテーションの予測が不十分になる。
WeClickは最先端の手法より優れ、ベースラインよりも10.24%のmIoUで性能を向上し、リアルタイム実行を実現している。
- 参考スコア(独自算出の注目度): 64.52412111417019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with tedious per-pixel mask annotating, it is much easier to
annotate data by clicks, which costs only several seconds for an image.
However, applying clicks to learn video semantic segmentation model has not
been explored before. In this work, we propose an effective weakly-supervised
video semantic segmentation pipeline with click annotations, called WeClick,
for saving laborious annotating effort by segmenting an instance of the
semantic class with only a single click. Since detailed semantic information is
not captured by clicks, directly training with click labels leads to poor
segmentation predictions. To mitigate this problem, we design a novel memory
flow knowledge distillation strategy to exploit temporal information (named
memory flow) in abundant unlabeled video frames, by distilling the neighboring
predictions to the target frame via estimated motion. Moreover, we adopt
vanilla knowledge distillation for model compression. In this case, WeClick
learns compact video semantic segmentation models with the low-cost click
annotations during the training phase yet achieves real-time and accurate
models during the inference period. Experimental results on Cityscapes and
Camvid show that WeClick outperforms the state-of-the-art methods, increases
performance by 10.24% mIoU than baseline, and achieves real-time execution.
- Abstract(参考訳): 退屈なピクセル毎のマスクアノテートと比較すると、クリックでデータのアノテートがずっと簡単で、画像に数秒しかかからない。
しかし、ビデオセマンティックセグメンテーションモデルを学習するためのクリックの適用については、これまで検討されていない。
本研究では,ワンクリックでセマンティクスクラスのインスタンスをセグメンテーションすることで,手間のかかる注釈処理を省くために,クリックアノテーションを用いたビデオ意味セグメンテーションパイプラインであるweclickを提案する。
詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルによる直接トレーニングはセグメンテーションの予測が不十分になる。
この問題を軽減するため,提案手法では,推定動作により隣接予測を目標フレームに蒸留することにより,無ラベル映像フレームの時間情報(名前メモリフロー)を利用する新たなメモリフロー知識蒸留戦略を考案する。
さらに,モデル圧縮にバニラ知識蒸留を採用する。
この場合、WeClickはトレーニング期間中に低コストのクリックアノテーションでコンパクトなビデオセマンティックセグメンテーションモデルを学ぶが、推論期間中にリアルタイムかつ正確なモデルを達成する。
cityscapesとcamvidによる実験の結果、weclickは最先端のメソッドよりも優れており、ベースラインよりも性能が10.24%向上し、リアルタイム実行を実現している。
関連論文リスト
- RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation [37.44155289954746]
対話型セグメンテーションシナリオにおけるクリックパターンの大規模クラウドソーシング調査を行い,475万のリアルタイムクリックを収集する。
本モデルとデータセットを用いて,現実的なクリックにおける既存の対話的セグメンテーション手法の包括的比較のためのRClicksベンチマークを提案する。
我々のベンチマークによると、実世界の対話型セグメンテーションモデルでは、ベースラインベンチマークで報告されたよりもパフォーマンスが悪く、ほとんどの手法は堅牢ではない。
論文 参考訳(メタデータ) (2024-10-15T15:55:00Z) - IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos [23.153335327822685]
動作セグメント/サブゴール/オプションにグループ化することで,手術映像の動作中心の表現を学習する。
我々はビデオ観察から深い埋め込み特徴空間を学習するアルゴリズムであるMotion2Vecを紹介する。
この表現を用いて,JIGSAWSデータセットの公開ビデオからの外科的縫合動作を模倣する。
論文 参考訳(メタデータ) (2020-05-31T15:46:01Z) - Dropout Prediction over Weeks in MOOCs by Learning Representations of
Clicks and Videos [6.030785848148107]
ビデオの表現と動画とクリックの相関関係を学習する手法を開発した。
その結果、ビデオのモデリングとクリックとの相関は、ドロップアウト予測において統計的に有意な改善をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-05T19:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。