論文の概要: A Generalized Framework for Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2211.08834v2
- Date: Fri, 24 Mar 2023 15:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:23:15.031490
- Title: A Generalized Framework for Video Instance Segmentation
- Title(参考訳): ビデオインスタンスセグメンテーションのための一般化フレームワーク
- Authors: Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh,
Joon-Young Lee, Seon Joo Kim
- Abstract要約: ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
- 参考スコア(独自算出の注目度): 49.41441806931224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The handling of long videos with complex and occluded sequences has recently
emerged as a new challenge in the video instance segmentation (VIS) community.
However, existing methods have limitations in addressing this challenge. We
argue that the biggest bottleneck in current approaches is the discrepancy
between training and inference. To effectively bridge this gap, we propose a
Generalized framework for VIS, namely GenVIS, that achieves state-of-the-art
performance on challenging benchmarks without designing complicated
architectures or requiring extra post-processing. The key contribution of
GenVIS is the learning strategy, which includes a query-based training pipeline
for sequential learning with a novel target label assignment. Additionally, we
introduce a memory that effectively acquires information from previous states.
Thanks to the new perspective, which focuses on building relationships between
separate frames or clips, GenVIS can be flexibly executed in both online and
semi-online manner. We evaluate our approach on popular VIS benchmarks,
achieving state-of-the-art results on YouTube-VIS 2019/2021/2022 and Occluded
VIS (OVIS). Notably, we greatly outperform the state-of-the-art on the long VIS
benchmark (OVIS), improving 5.6 AP with ResNet-50 backbone. Code is available
at https://github.com/miranheo/GenVIS.
- Abstract(参考訳): 近年,ビデオインスタンスセグメンテーション(VIS)コミュニティにおいて,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が新たな課題として浮上している。
しかし、既存の手法はこの課題に対処するのに限界がある。
現在のアプローチの最大のボトルネックは、トレーニングと推論の相違にある、と私たちは主張する。
このギャップを効果的に埋めるために、複雑なアーキテクチャを設計したり、余分な後処理を必要とせずに、挑戦的なベンチマークで最先端のパフォーマンスを実現する、VISの汎用フレームワーク、すなわちGenVISを提案する。
GenVISの重要なコントリビューションは、新しいターゲットラベル割り当てによるシーケンシャルラーニングのためのクエリベースのトレーニングパイプラインを含む、学習戦略である。
さらに,従来の状態から情報を効果的に取得するメモリを導入する。
異なるフレームやクリップ間の関係を構築することに焦点を当てた新しい視点のおかげで、GenVISはオンラインと半オンラインの両方で柔軟に実行できる。
提案手法は,YouTube-VIS 2019/2021/2022とOccluded VIS (OVIS) で最先端の結果を得られる。
特に、ロングVISベンチマーク(OVIS)の最先端性能を大きく上回り、ResNet-50のバックボーンで5.6 APを改善した。
コードはhttps://github.com/miranheo/GenVIS.comで入手できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - TCOVIS: Temporally Consistent Online Video Instance Segmentation [98.29026693059444]
そこで我々は,TCOVISというビデオインスタンスセグメンテーションのための新しいオンライン手法を提案する。
本手法のコアは,グローバルなインスタンス割り当て戦略とビデオ時間拡張モジュールから構成される。
提案手法を4つのVISベンチマークで評価し,ベル・アンド・ウィストルを使わずに全ベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T07:59:15Z) - NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation [22.200700685751826]
ビデオインスタンス(VIS)コミュニティは、オフラインメソッドは一般的にオンライン処理によってフレームよりも優れているという共通の信念の下で運営されている。
本稿では、異なる処理パラダイムの詳細な分析と、新しいエンドツーエンドビデオインスタンス法を提案する。
我々のNOVISは、手作りの追跡を避ける最初のニアオンラインVISアプローチである。
論文 参考訳(メタデータ) (2023-08-29T12:51:04Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training [84.81566912372328]
MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-03T17:50:42Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。