論文の概要: SiamMask: A Framework for Fast Online Object Tracking and Segmentation
- arxiv url: http://arxiv.org/abs/2207.02088v1
- Date: Tue, 5 Jul 2022 14:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 18:19:00.233449
- Title: SiamMask: A Framework for Fast Online Object Tracking and Segmentation
- Title(参考訳): SiamMask: 高速なオンラインオブジェクト追跡とセグメンテーションのためのフレームワーク
- Authors: Weiming Hu, Qiang Wang, Li Zhang, Luca Bertinetto, Philip H.S. Torr
- Abstract要約: SiamMaskは、ビジュアルオブジェクトトラッキングとビデオオブジェクトセグメンテーションの両方を、同じシンプルな方法でリアルタイムで実行するためのフレームワークである。
マルチタスクモデルを簡単に再利用することで、複数のオブジェクトのトラッキングとセグメンテーションを扱うためのフレームワークを拡張することができることを示す。
ビデオオブジェクトセグメンテーションベンチマークでは、高速で競合性能を示すと同時に、ビジュアルオブジェクト追跡ベンチマークでは、リアルタイムに最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 96.61632757952292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we introduce SiamMask, a framework to perform both visual
object tracking and video object segmentation, in real-time, with the same
simple method. We improve the offline training procedure of popular
fully-convolutional Siamese approaches by augmenting their losses with a binary
segmentation task. Once the offline training is completed, SiamMask only
requires a single bounding box for initialization and can simultaneously carry
out visual object tracking and segmentation at high frame-rates. Moreover, we
show that it is possible to extend the framework to handle multiple object
tracking and segmentation by simply re-using the multi-task model in a cascaded
fashion. Experimental results show that our approach has high processing
efficiency, at around 55 frames per second. It yields real-time
state-of-the-art results on visual-object tracking benchmarks, while at the
same time demonstrating competitive performance at a high speed for video
object segmentation benchmarks.
- Abstract(参考訳): 本稿では,視覚オブジェクトのトラッキングと映像オブジェクトのセグメンテーションの両方を,同じ簡単な方法でリアルタイムに行うためのフレームワークであるSiamMaskを紹介する。
完全畳み込み型シームズアプローチのオフライントレーニング手順を,二分分割タスクによる損失を増大させることにより改善する。
オフライントレーニングが完了すると、SiamMaskは初期化のための単一のバウンディングボックスのみを必要とし、高いフレームレートでビジュアルオブジェクトのトラッキングとセグメンテーションを同時に実行することができる。
さらに,マルチタスクモデルを逐次的に再利用するだけで,複数のオブジェクト追跡やセグメンテーションを扱うフレームワークを拡張することが可能であることを示す。
実験の結果,提案手法の処理効率は55フレーム/秒程度であることがわかった。
ビデオオブジェクトセグメンテーションベンチマークでは、高速で競合性能を示すと同時に、ビジュアルオブジェクト追跡ベンチマークでは、リアルタイムに最先端の結果が得られる。
関連論文リスト
- Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。