論文の概要: Efficient Video Object Segmentation with Compressed Video
- arxiv url: http://arxiv.org/abs/2107.12192v1
- Date: Mon, 26 Jul 2021 12:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:00:52.789543
- Title: Efficient Video Object Segmentation with Compressed Video
- Title(参考訳): 圧縮ビデオを用いた効率的な映像オブジェクトセグメンテーション
- Authors: Kai Xu and Angela Yao
- Abstract要約: ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。
提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
- 参考スコア(独自算出の注目度): 36.192735485675286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient inference framework for semi-supervised video object
segmentation by exploiting the temporal redundancy of the video. Our method
performs inference on selected keyframes and makes predictions for other frames
via propagation based on motion vectors and residuals from the compressed video
bitstream. Specifically, we propose a new motion vector-based warping method
for propagating segmentation masks from keyframes to other frames in a
multi-reference manner. Additionally, we propose a residual-based refinement
module that can correct and add detail to the block-wise propagated
segmentation masks. Our approach is flexible and can be added on top of
existing video object segmentation algorithms. With STM with top-k filtering as
our base model, we achieved highly competitive results on DAVIS16 and
YouTube-VOS with substantial speedups of up to 4.9X with little loss in
accuracy.
- Abstract(参考訳): ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的な推論フレームワークを提案する。
提案手法は,選択したキーフレームに対する推論を行い,圧縮したビデオビットストリームの動作ベクトルと残差に基づいて,他のフレームに対する予測を行う。
具体的には,キーフレームから他のフレームへのセグメンテーションマスクをマルチ参照で伝播する動きベクトルに基づくワープ手法を提案する。
さらに,ブロック方向伝搬型セグメンテーションマスクに細部を補正・付加可能な残差ベースリファインメントモジュールを提案する。
われわれのアプローチは柔軟であり、既存のビデオオブジェクトセグメンテーションアルゴリズムに加えることができる。
ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Object Segmentation-Assisted Inter Prediction for Versatile Video Coding [53.91821712591901]
本稿では,参照フレーム内のオブジェクトをいくつかの高度な技術でセグメント化するオブジェクトセグメンテーション支援インター予測手法を提案する。
適切な指示により、オブジェクトセグメンテーションマスクは、参照フレームから現在のフレームに、異なる領域の任意の形のパーティションとして変換される。
提案手法は, 最大1.98%, 1.14%, 0.79%, 平均0.82%, 0.49%, 0.37%のBDレート低下が得られた。
論文 参考訳(メタデータ) (2024-03-18T11:48:20Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - GSVNet: Guided Spatially-Varying Convolution for Fast Semantic
Segmentation on Video [10.19019476978683]
ビデオセグメンテーションのための簡易かつ効率的な伝播フレームワークを提案する。
セグメンテーション外空間における時間ゆがみのための1/8スケール画像空間における軽量フロー推定を行う。
本稿では,前フレームと現在のフレームからのセグメンテーションを融合する誘導型空間変動畳み込みを導入し,伝搬誤差を緩和する。
論文 参考訳(メタデータ) (2021-03-16T03:38:59Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。