論文の概要: Crossover Learning for Fast Online Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2104.05970v1
- Date: Tue, 13 Apr 2021 06:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:29:46.348028
- Title: Crossover Learning for Fast Online Video Instance Segmentation
- Title(参考訳): 高速オンラインビデオインスタンスセグメンテーションのためのクロスオーバー学習
- Authors: Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan,
Bin Feng, Wenyu Liu
- Abstract要約: 本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
- 参考スコア(独自算出の注目度): 53.5613957875507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling temporal visual context across frames is critical for video instance
segmentation (VIS) and other video understanding tasks. In this paper, we
propose a fast online VIS model named CrossVIS. For temporal information
modeling in VIS, we present a novel crossover learning scheme that uses the
instance feature in the current frame to pixel-wisely localize the same
instance in other frames. Different from previous schemes, crossover learning
does not require any additional network parameters for feature enhancement. By
integrating with the instance segmentation loss, crossover learning enables
efficient cross-frame instance-to-pixel relation learning and brings cost-free
improvement during inference. Besides, a global balanced instance embedding
branch is proposed for more accurate and more stable online instance
association. We conduct extensive experiments on three challenging VIS
benchmarks, \ie, YouTube-VIS-2019, OVIS, and YouTube-VIS-2021 to evaluate our
methods. To our knowledge, CrossVIS achieves state-of-the-art performance among
all online VIS methods and shows a decent trade-off between latency and
accuracy. Code will be available to facilitate future research.
- Abstract(参考訳): フレーム間の時間的視覚コンテキストのモデリングは、ビデオインスタンスセグメンテーション(VIS)や他のビデオ理解タスクにとって重要である。
本稿では,CrossVISという高速オンラインVISモデルを提案する。
VISにおける時間情報モデリングには、現在のフレームのインスタンス機能を用いて、他のフレームの同じインスタンスを画素的にローカライズする新しいクロスオーバー学習方式を提案する。
従来のスキームとは異なり、クロスオーバー学習は機能強化のために追加のネットワークパラメータを必要としない。
インスタンスセグメンテーション損失と統合することで、クロスオーバー学習は効率的なクロスフレームインスタンス間関係学習を可能にし、推論中にコストフリーな改善をもたらす。
さらに、より正確でより安定したオンラインインスタンスアソシエーションのために、グローバルバランスのインスタンス埋め込みブランチが提案されている。
我々は,3つの挑戦的VISベンチマーク(Shaie, YouTube-VIS-2019, OVIS, YouTube-VIS-2021)について広範な実験を行った。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドで最先端のパフォーマンスを実現し、レイテンシと精度のトレードオフを十分に示しています。
コードは将来の研究を促進するために利用できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation [22.200700685751826]
ビデオインスタンス(VIS)コミュニティは、オフラインメソッドは一般的にオンライン処理によってフレームよりも優れているという共通の信念の下で運営されている。
本稿では、異なる処理パラダイムの詳細な分析と、新しいエンドツーエンドビデオインスタンス法を提案する。
我々のNOVISは、手作りの追跡を避ける最初のニアオンラインVISアプローチである。
論文 参考訳(メタデータ) (2023-08-29T12:51:04Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation [4.3012765978447565]
ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
論文 参考訳(メタデータ) (2022-07-22T14:27:45Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。