論文の概要: Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation
- arxiv url: http://arxiv.org/abs/2303.10100v1
- Date: Fri, 17 Mar 2023 16:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 13:47:54.796335
- Title: Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation
- Title(参考訳): 自己監督型ビデオセグメンテーションのための統一マスク埋め込みと対応学習
- Authors: Liulei Li, Wenguan Wang, Tianfei Zhou, Jianwu Li, Yi Yang
- Abstract要約: 我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
- 参考スコア(独自算出の注目度): 76.40565872257709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this paper is self-supervised learning of video object
segmentation. We develop a unified framework which simultaneously models
cross-frame dense correspondence for locally discriminative feature learning
and embeds object-level context for target-mask decoding. As a result, it is
able to directly learn to perform mask-guided sequential segmentation from
unlabeled videos, in contrast to previous efforts usually relying on an oblique
solution - cheaply "copying" labels according to pixel-wise correlations.
Concretely, our algorithm alternates between i) clustering video pixels for
creating pseudo segmentation labels ex nihilo; and ii) utilizing the pseudo
labels to learn mask encoding and decoding for VOS. Unsupervised correspondence
learning is further incorporated into this self-taught, mask embedding scheme,
so as to ensure the generic nature of the learnt representation and avoid
cluster degeneracy. Our algorithm sets state-of-the-arts on two standard
benchmarks (i.e., DAVIS17 and YouTube-VOS), narrowing the gap between self- and
fully-supervised VOS, in terms of both performance and network architecture
design.
- Abstract(参考訳): 本研究の目的は,ビデオオブジェクトセグメンテーションの自己教師型学習である。
我々は,局所的特徴学習のためのフレーム間密対応をモデル化し,対象マスク復号のためのオブジェクト指向コンテキストを組み込む統一フレームワークを開発した。
結果として、ラベルのないビデオからマスクガイド付きシーケンシャルセグメンテーションを直接学習することができるが、従来の取り組みは斜めのソリューションに依存しており、ピクセル単位の相関に従って安価にラベルを「コピー」することができる。
具体的には このアルゴリズムは
一 ニヒロの擬似セグメンテーションラベルを作成するためのビデオ画素のクラスタリング
二 擬似ラベルを利用して、VOSのマスクエンコーディング及び復号を学ぶこと。
教師なし対応学習は、学習表現の汎用性を確保し、クラスタ縮退を避けるために、この自己学習型マスク埋め込みスキームにさらに組み込まれている。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットし、パフォーマンス設計とネットワークアーキテクチャ設計の両方の観点から、自己管理VOSと完全管理VOSのギャップを狭める。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Pseudo Labelling for Enhanced Masked Autoencoders [27.029542823306866]
クラストークンとデータトークンの両方に擬似ラベリングを統合することで,Masked Autoencoders (MAE) の性能を向上させる手法を提案する。
この戦略では、クラスタ割り当てを擬似ラベルとして使用して、ネットワーク内のインスタンスレベルの識別を促進する。
擬似ラベリングを補助タスクとして組み込むことで,ImageNet-1Kなどの下流タスクに顕著な改善が見られた。
論文 参考訳(メタデータ) (2024-06-25T10:41:45Z) - Boosting Video Object Segmentation via Space-time Correspondence
Learning [48.8275459383339]
ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。
そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。
提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
論文 参考訳(メタデータ) (2023-04-13T01:34:44Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。