論文の概要: Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching
- arxiv url: http://arxiv.org/abs/2007.05687v1
- Date: Sat, 11 Jul 2020 05:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:36:27.748472
- Title: Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching
- Title(参考訳): 時間アグリゲーションネットワークと動的テンプレートマッチングを用いた高速ビデオオブジェクト分割
- Authors: Xuhua Huang, Jiarui Xu, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 67.02962970820505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in Video Object Segmentation (VOS), the
video object tracking task in its finest level. While the VOS task can be
naturally decoupled into image semantic segmentation and video object tracking,
significantly much more research effort has been made in segmentation than
tracking. In this paper, we introduce "tracking-by-detection" into VOS which
can coherently integrate segmentation into tracking, by proposing a new
temporal aggregation network and a novel dynamic time-evolving template
matching mechanism to achieve significantly improved performance. Notably, our
method is entirely online and thus suitable for one-shot learning, and our
end-to-end trainable model allows multiple object segmentation in one forward
pass. We achieve new state-of-the-art performance on the DAVIS benchmark
without complicated bells and whistles in both speed and accuracy, with a speed
of 0.14 second per frame and J&F measure of 75.9% respectively.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS: Video Object Segmentation)は、ビデオオブジェクトのトラッキングタスクである。
VOSタスクは自然にイメージセマンティックセグメンテーションとビデオオブジェクトトラッキングに分離できるが、トラッキングよりもはるかに多くの研究努力がなされている。
本稿では,新しい時間的アグリゲーションネットワークと新しい動的時間発展テンプレートマッチング機構を提案し,性能を著しく向上させることにより,セグメンテーションをトラッキングとコヒーレント的に統合できるvosに「検出による追跡」を導入する。
特に,この手法は完全にオンラインなので,ワンショット学習に適しており,エンドツーエンドのトレーニング可能なモデルでは,複数のオブジェクトを1回のフォワードパスでセグメンテーションすることが可能である。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - SiamMask: A Framework for Fast Online Object Tracking and Segmentation [96.61632757952292]
SiamMaskは、ビジュアルオブジェクトトラッキングとビデオオブジェクトセグメンテーションの両方を、同じシンプルな方法でリアルタイムで実行するためのフレームワークである。
マルチタスクモデルを簡単に再利用することで、複数のオブジェクトのトラッキングとセグメンテーションを扱うためのフレームワークを拡張することができることを示す。
ビデオオブジェクトセグメンテーションベンチマークでは、高速で競合性能を示すと同時に、ビジュアルオブジェクト追跡ベンチマークでは、リアルタイムに最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-07-05T14:47:17Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。