論文の概要: STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2202.03747v1
- Date: Tue, 8 Feb 2022 09:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 15:29:35.278494
- Title: STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation
- Title(参考訳): STC:ビデオインスタンスセグメンテーションのための時空間コントラスト学習
- Authors: Zhengkai Jiang, Zhangxuan Gu, Jinlong Peng, Hang Zhou, Liang Liu,
Yabiao Wang, Ying Tai, Chengjie Wang, Liqing Zhang
- Abstract要約: ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.28515170195206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Instance Segmentation (VIS) is a task that simultaneously requires
classification, segmentation, and instance association in a video. Recent VIS
approaches rely on sophisticated pipelines to achieve this goal, including
RoI-related operations or 3D convolutions. In contrast, we present a simple and
efficient single-stage VIS framework based on the instance segmentation method
CondInst by adding an extra tracking head. To improve instance association
accuracy, a novel bi-directional spatio-temporal contrastive learning strategy
for tracking embedding across frames is proposed. Moreover, an instance-wise
temporal consistency scheme is utilized to produce temporally coherent results.
Experiments conducted on the YouTube-VIS-2019, YouTube-VIS-2021, and OVIS-2021
datasets validate the effectiveness and efficiency of the proposed method. We
hope the proposed framework can serve as a simple and strong alternative for
many other instance-level video association tasks. Code will be made available.
- Abstract(参考訳): Video Instance Segmentation (VIS)は、ビデオ内の分類、セグメンテーション、インスタンス関連を同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
対照的に、インスタンスセグメンテーション手法であるCondInstをベースとした、シンプルで効率的なシングルステージVISフレームワークを提案する。
インスタンス関連付けの精度を向上させるために,フレーム間の埋め込みを追跡する双方向時空間コントラスト学習戦略を提案する。
さらに、インスタンス毎の時間的一貫性スキームを用いて、時間的コヒーレントな結果を生成する。
YouTube-VIS-2019、YouTube-VIS-2021、OVIS-2021データセットで実施された実験は、提案手法の有効性と有効性を検証する。
提案フレームワークは,他の多くのインスタンスレベルのビデオアソシエーションタスクに対して,シンプルで強力な代替手段として機能することを期待している。
コードは利用可能になる。
関連論文リスト
- DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。