論文の概要: Boosting Video Object Segmentation via Space-time Correspondence
Learning
- arxiv url: http://arxiv.org/abs/2304.06211v1
- Date: Thu, 13 Apr 2023 01:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:00:24.153793
- Title: Boosting Video Object Segmentation via Space-time Correspondence
Learning
- Title(参考訳): 時空間対応学習による映像オブジェクトセグメンテーションの促進
- Authors: Yurong Zhang, Liulei Li, Wenguan Wang, Rong Xie, Li Song, Wenjun Zhang
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。
そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。
提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
- 参考スコア(独自算出の注目度): 48.8275459383339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current top-leading solutions for video object segmentation (VOS) typically
follow a matching-based regime: for each query frame, the segmentation mask is
inferred according to its correspondence to previously processed and the first
annotated frames. They simply exploit the supervisory signals from the
groundtruth masks for learning mask prediction only, without posing any
constraint on the space-time correspondence matching, which, however, is the
fundamental building block of such regime. To alleviate this crucial yet
commonly ignored issue, we devise a correspondence-aware training framework,
which boosts matching-based VOS solutions by explicitly encouraging robust
correspondence matching during network learning. Through comprehensively
exploring the intrinsic coherence in videos on pixel and object levels, our
algorithm reinforces the standard, fully supervised training of mask
segmentation with label-free, contrastive correspondence learning. Without
neither requiring extra annotation cost during training, nor causing speed
delay during deployment, nor incurring architectural modification, our
algorithm provides solid performance gains on four widely used benchmarks,
i.e., DAVIS2016&2017, and YouTube-VOS2018&2019, on the top of famous
matching-based VOS solutions.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)の現在のトップリードソリューションは、通常、マッチングベースのレシエーションに従う: 各クエリフレームに対して、セグメンテーションマスクは、前処理と第1の注釈付きフレームとの対応に従って推論される。
彼らは単に地上のマスクからの監視信号をマスク予測の学習に利用し、時空対応マッチングに制約を課すことなく、マスク予測を学習するだけである。
この決定的かつ一般的に無視される問題を緩和するため,ネットワーク学習中の堅牢な対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する対応対応型トレーニングフレームワークを考案した。
ピクセルレベルとオブジェクトレベルのビデオにおける内在的コヒーレンスを包括的に探索することで,ラベルなし,コントラスト対応学習によるマスクセグメンテーションの標準的教師付きトレーニングを強化する。
トレーニング中に追加のアノテーションコストを必要とせず、デプロイメントの速度遅延を引き起こしたり、アーキテクチャの変更を伴わないアルゴリズムは、有名なマッチングベースのvosソリューションに加えて、広く使用されている4つのベンチマーク、すなわちdavis2016&2017とyoutube-vos2018&2019のパフォーマンス向上を提供する。
関連論文リスト
- One-shot Training for Video Object Segmentation [11.52321103793505]
Video Object(VOS)は、ビデオ内のフレームをまたいだオブジェクトを追跡し、ターゲットオブジェクトの初期アノテーション付きフレームに基づいてそれらをセグメンテーションすることを目的としている。
これまでのVOSの作業は、トレーニングのために完全に注釈付けされたビデオに頼っていた。
VOSのための一般的なワンショットトレーニングフレームワークを提案し、トレーニングビデオあたりのラベル付きフレームは1つしか必要としない。
論文 参考訳(メタデータ) (2024-05-22T21:37:08Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。