論文の概要: Per-Clip Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2208.01924v1
- Date: Wed, 3 Aug 2022 09:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:49:42.105318
- Title: Per-Clip Video Object Segmentation
- Title(参考訳): クリップ単位のビデオオブジェクトセグメンテーション
- Authors: Kwanyong Park, Sanghyun Woo, Seoung Wug Oh, In So Kweon, Joon-Young
Lee
- Abstract要約: 近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 110.08925274049409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, memory-based approaches show promising results on semi-supervised
video object segmentation. These methods predict object masks frame-by-frame
with the help of frequently updated memory of the previous mask. Different from
this per-frame inference, we investigate an alternative perspective by treating
video object segmentation as clip-wise mask propagation. In this per-clip
inference scheme, we update the memory with an interval and simultaneously
process a set of consecutive frames (i.e. clip) between the memory updates. The
scheme provides two potential benefits: accuracy gain by clip-level
optimization and efficiency gain by parallel computation of multiple frames. To
this end, we propose a new method tailored for the per-clip inference.
Specifically, we first introduce a clip-wise operation to refine the features
based on intra-clip correlation. In addition, we employ a progressive matching
mechanism for efficient information-passing within a clip. With the synergy of
two modules and a newly proposed per-clip based training, our network achieves
state-of-the-art performance on Youtube-VOS 2018/2019 val (84.6% and 84.6%) and
DAVIS 2016/2017 val (91.9% and 86.1%). Furthermore, our model shows a great
speed-accuracy trade-off with varying memory update intervals, which leads to
huge flexibility.
- Abstract(参考訳): 近年,半教師付きビデオオブジェクトセグメンテーションにおけるメモリベースのアプローチは有望な結果を示している。
これらの方法は、以前のマスクの頻繁な更新メモリの助けを借りて、オブジェクトマスクをフレーム単位で予測する。
このフレーム毎の推論とは異なり、ビデオオブジェクトのセグメンテーションをクリップワイズマスクの伝搬として扱うことにより、別の視点を検討する。
このクリップ毎の推論スキームでは、メモリをインターバルで更新し、メモリ更新の間に連続したフレーム(つまりクリップ)を同時に処理します。
このスキームは、クリップレベルの最適化による精度向上と、複数のフレームの並列計算による効率向上の2つの潜在的な利点を提供する。
そこで本研究では,クリップごとの推論に適した新しい手法を提案する。
具体的には,まず,クリップ内相関に基づいて特徴を洗練するためのクリップワイズ操作を導入する。
さらに,クリップ内の効率的な情報伝達にプログレッシブマッチング機構を採用する。
2つのモジュールのシナジーと、新たに提案されたクリップ単位のトレーニングにより、youtube-vos 2018/2019 val(84.6%と84.6%)とdavis 2016/2017 val(91.9%と86.1%)で最先端のパフォーマンスを実現している。
さらに,本モデルでは,メモリ更新間隔の異なる速度精度のトレードオフが示され,柔軟性が向上した。
関連論文リスト
- Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文 参考訳(メタデータ) (2021-07-26T12:57:04Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Video Instance Segmentation using Inter-Frame Communication Transformers [28.539742250704695]
最近では、フレーム単位のパイプラインは、フレーム単位のメソッドよりも優れたパフォーマンスを示している。
以前は、フレーム間通信を実現するために、大量の計算とメモリ使用量が必要だった。
フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信変換器(IFC)を提案する。
論文 参考訳(メタデータ) (2021-06-07T02:08:39Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。