論文の概要: In Defense of Online Models for Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2207.10661v1
- Date: Thu, 21 Jul 2022 17:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:27:12.576850
- Title: In Defense of Online Models for Video Instance Segmentation
- Title(参考訳): ビデオインスタンスセグメンテーションのためのオンラインモデルの防衛
- Authors: Junfeng Wu, Qihao Liu, Yi Jiang, Song Bai, Alan Yuille, Xiang Bai
- Abstract要約: 比較学習に基づくオンライン・フレームワークを提案する。
その単純さにもかかわらず、我々の方法は3つのベンチマークでオンラインおよびオフラインのすべてのメソッドより優れています。
提案手法は,第4回大規模ビデオオブジェクトチャレンジのビデオインスタンスセグメンテーショントラックで優勝した。
- 参考スコア(独自算出の注目度): 70.16915119724757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, video instance segmentation (VIS) has been largely advanced
by offline models, while online models gradually attracted less attention
possibly due to their inferior performance. However, online methods have their
inherent advantage in handling long video sequences and ongoing videos while
offline models fail due to the limit of computational resources. Therefore, it
would be highly desirable if online models can achieve comparable or even
better performance than offline models. By dissecting current online models and
offline models, we demonstrate that the main cause of the performance gap is
the error-prone association between frames caused by the similar appearance
among different instances in the feature space. Observing this, we propose an
online framework based on contrastive learning that is able to learn more
discriminative instance embeddings for association and fully exploit history
information for stability. Despite its simplicity, our method outperforms all
online and offline methods on three benchmarks. Specifically, we achieve 49.5
AP on YouTube-VIS 2019, a significant improvement of 13.2 AP and 2.1 AP over
the prior online and offline art, respectively. Moreover, we achieve 30.2 AP on
OVIS, a more challenging dataset with significant crowding and occlusions,
surpassing the prior art by 14.8 AP. The proposed method won first place in the
video instance segmentation track of the 4th Large-scale Video Object
Segmentation Challenge (CVPR2022). We hope the simplicity and effectiveness of
our method, as well as our insight into current methods, could shed light on
the exploration of VIS models.
- Abstract(参考訳): 近年、ビデオインスタンスセグメンテーション (VIS) はオフラインモデルによって大きく進歩しているが、オンラインモデルは性能が劣っているため、徐々に注目が薄れつつある。
しかし、オンライン手法は、長いビデオシーケンスや進行中のビデオを扱う上で本質的に有利であるが、オフラインモデルは計算資源の限界のために失敗する。
したがって、オンラインモデルがオフラインモデルと同等あるいはそれ以上のパフォーマンスを達成できれば、非常に望ましい。
現状のオンラインモデルとオフラインモデルとを分離することにより,特徴空間の異なるインスタンス間の類似の出現に起因するフレーム間の誤りが性能ギャップの主な原因であることを示す。
そこで本稿では, より識別的な事例埋め込みを学習し, 履歴情報の安定性を十分に活用できる, コントラスト学習に基づくオンラインフレームワークを提案する。
その単純さにもかかわらず、3つのベンチマークですべてのオンラインメソッドとオフラインメソッドを上回っています。
具体的には、YouTube-VIS 2019で49.5 APを達成し、以前のオンラインアートとオフラインアートに対して13.2 APと2.1 APを大きく改善した。
さらに、OVISで30.2 APを達成した。これはより難しいデータセットで、大きな群集と閉塞があり、以前の技術よりも14.8 APを上回っている。
提案手法は,第4回大規模映像オブジェクトセグメンテーションチャレンジ(cvpr2022)のビデオインスタンスセグメンテーショントラックにおいて,第1位を獲得した。
我々の方法の単純さと有効性、そして現在の方法に対する洞察が、VISモデルの探索に光を当ててくれることを願っている。
関連論文リスト
- TCOVIS: Temporally Consistent Online Video Instance Segmentation [98.29026693059444]
そこで我々は,TCOVISというビデオインスタンスセグメンテーションのための新しいオンライン手法を提案する。
本手法のコアは,グローバルなインスタンス割り当て戦略とビデオ時間拡張モジュールから構成される。
提案手法を4つのVISベンチマークで評価し,ベル・アンド・ウィストルを使わずに全ベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T07:59:15Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - Tube-Link: A Flexible Cross Tube Framework for Universal Video
Segmentation [83.65774845267622]
Tube-Linkは、ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークである。
我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。
論文 参考訳(メタデータ) (2023-03-22T17:52:11Z) - Offline-to-Online Knowledge Distillation for Video Instance Segmentation [13.270872063217022]
ビデオインスタンスセグメンテーション(VIS)のためのオフライン-オンライン知識蒸留(OOKD)を提案する。
本手法は,オフラインモデルからオンラインモデルに豊富な映像知識を伝達し,一貫した予測を行う。
また,YTVIS-21,YTVIS-22,OVISデータセットのmAPスコアは46.1%,43.6%,31.1%であった。
論文 参考訳(メタデータ) (2023-02-15T08:24:37Z) - InstanceFormer: An Online Video Instance Segmentation Framework [21.760243214387987]
本稿では,一段変換器を用いた効率的なオンラインVISフレームワーク InstanceFormer を提案する。
本稿では,短期的・長期的依存と時間的コヒーレンスをモデル化するための3つの新しいコンポーネントを提案する。
提案されたInstanceFormerは、従来のオンラインベンチマークメソッドよりも、複数のデータセットで大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-08-22T18:54:18Z) - Learning Online for Unified Segmentation and Tracking Models [30.146300294418516]
TrackMLPは、部分的な情報のみから学習するために最適化された新しいメタラーニング手法である。
本モデルでは, 競合モデルに対して, 最先端の性能と具体的な改善を達成できることが示される。
論文 参考訳(メタデータ) (2021-11-12T23:52:59Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。