論文の概要: Region Aware Video Object Segmentation with Deep Motion Modeling
- arxiv url: http://arxiv.org/abs/2207.10258v1
- Date: Thu, 21 Jul 2022 01:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:57:33.252672
- Title: Region Aware Video Object Segmentation with Deep Motion Modeling
- Title(参考訳): 深部運動モデリングを用いた領域認識型ビデオオブジェクトセグメンテーション
- Authors: Bo Miao and Mohammed Bennamoun and Yongsheng Gao and Ajmal Mian
- Abstract要約: Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
- 参考スコア(独自算出の注目度): 56.95836951559529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current semi-supervised video object segmentation (VOS) methods usually
leverage the entire features of one frame to predict object masks and update
memory. This introduces significant redundant computations. To reduce
redundancy, we present a Region Aware Video Object Segmentation (RAVOS)
approach that predicts regions of interest (ROIs) for efficient object
segmentation and memory storage. RAVOS includes a fast object motion tracker to
predict their ROIs in the next frame. For efficient segmentation, object
features are extracted according to the ROIs, and an object decoder is designed
for object-level segmentation. For efficient memory storage, we propose motion
path memory to filter out redundant context by memorizing the features within
the motion path of objects between two frames. Besides RAVOS, we also propose a
large-scale dataset, dubbed OVOS, to benchmark the performance of VOS models
under occlusions. Evaluation on DAVIS and YouTube-VOS benchmarks and our new
OVOS dataset show that our method achieves state-of-the-art performance with
significantly faster inference time, e.g., 86.1 J&F at 42 FPS on DAVIS and 84.4
J&F at 23 FPS on YouTube-VOS.
- Abstract(参考訳): 現在の半教師付きビデオオブジェクトセグメンテーション(VOS)手法は、通常、オブジェクトマスクの予測とメモリの更新に、1フレームのすべての機能を利用する。
これは大きな冗長計算をもたらす。
冗長性を低減するために、効率的なオブジェクトセグメンテーションとメモリストレージのために、関心領域(roi)を予測する領域認識ビデオオブジェクトセグメンテーション(ravos)アプローチを提案する。
RAVOSには、次のフレームでROIを予測する高速なオブジェクトモーショントラッカーが含まれている。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの動作パス内の特徴を記憶して冗長なコンテキストをフィルタするモーションパスメモリを提案する。
また、RAVOS以外にも、OVOSと呼ばれる大規模なデータセットを提案し、VOSモデルの性能をオクルージョンでベンチマークする。
DAVISおよびYouTube-VOSベンチマークおよび新しいOVOSデータセットによる評価から,本手法は,DAVISの42FPSでの86.1J&F,YouTube-VOSの23FPSでの84.4J&Fなど,非常に高速な推論時間で最先端のパフォーマンスを実現する。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - ClickVOS: Click Video Object Segmentation [29.20434078000283]
Video Object(VOS)タスクは、ビデオ内のオブジェクトをセグメントすることを目的としている。
これらの制限に対処するため、Click Video Object (ClickVOS) という設定を提案する。
ClickVOSは、第1フレーム内のオブジェクトごとのクリック数に応じて、ビデオ全体を通して関心のあるオブジェクトをセグメントする。
論文 参考訳(メタデータ) (2024-03-10T08:37:37Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Adaptive Memory Management for Video Object Segmentation [6.282068591820945]
マッチングベースのネットワークは、将来の推論のために、各kフレームを外部メモリバンクに格納する。
メモリバンクのサイズはビデオの長さによって徐々に増加し、推論速度が遅くなり、任意の長さのビデオを扱うのが不可能になる。
本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。
論文 参考訳(メタデータ) (2022-04-13T19:59:07Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。