論文の概要: A Generalized Framework for Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2211.08834v1
- Date: Wed, 16 Nov 2022 11:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:41:56.506751
- Title: A Generalized Framework for Video Instance Segmentation
- Title(参考訳): ビデオインスタンスセグメンテーションのための一般化フレームワーク
- Authors: Miran Heo, Sukjun Hwang, Jeongseok Hyun, Hanjung Kim, Seoung Wug Oh,
Joon-Young Lee, Seon Joo Kim
- Abstract要約: 複雑で隠蔽されたシーケンスの長いビデオを扱うことが、ビデオインスタンスセグメンテーション(VIS)コミュニティで新たな課題として浮上している。
複雑なアーキテクチャや余分な後処理を設計することなく、挑戦的なベンチマークで最先端のパフォーマンスを実現するフレームワークを提案する。
提案手法を,YouTube-VIS 2019/2021/2022,Occluded VIS (OVIS) で評価し,最先端の結果を得た。
- 参考スコア(独自算出の注目度): 49.41441806931224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, handling long videos of complex and occluded sequences has emerged
as a new challenge in the video instance segmentation (VIS) community. However,
existing methods show limitations in addressing the challenge. We argue that
the biggest bottleneck in current approaches is the discrepancy between the
training and the inference. To effectively bridge the gap, we propose a
\textbf{Gen}eralized framework for \textbf{VIS}, namely \textbf{GenVIS}, that
achieves the state-of-the-art performance on challenging benchmarks without
designing complicated architectures or extra post-processing. The key
contribution of GenVIS is the learning strategy. Specifically, we propose a
query-based training pipeline for sequential learning, using a novel target
label assignment strategy. To further fill the remaining gaps, we introduce a
memory that effectively acquires information from previous states. Thanks to
the new perspective, which focuses on building relationships between separate
frames or clips, GenVIS can be flexibly executed in both online and semi-online
manner. We evaluate our methods on popular VIS benchmarks, YouTube-VIS
2019/2021/2022 and Occluded VIS (OVIS), achieving state-of-the-art results.
Notably, we greatly outperform the state-of-the-art on the long VIS benchmark
(OVIS), improving 5.6 AP with ResNet-50 backbone. Code will be available at
https://github.com/miranheo/GenVIS.
- Abstract(参考訳): 近年,ビデオインスタンスセグメンテーション (vis) コミュニティでは,複雑なシーケンスの長いビデオを扱うことが新たな課題となっている。
しかし,既存の手法は課題に対処する際の限界を示す。
現在のアプローチの最大のボトルネックは、トレーニングと推論の相違にある、と私たちは主張する。
このギャップを効果的に橋渡しするため,我々は,複雑なアーキテクチャや追加のポストプロセッシングを設計せずに,挑戦的なベンチマークで最先端のパフォーマンスを実現する, \textbf{gen}eralized framework for \textbf{vis},すなわち \textbf{genvis}を提案する。
GenVISの重要な貢献は学習戦略である。
具体的には,新しいターゲットラベル割り当て戦略を用いて,逐次学習のためのクエリベーストレーニングパイプラインを提案する。
残りのギャップをさらに埋めるために,過去の状態から情報を効果的に取得するメモリを導入する。
異なるフレームやクリップ間の関係を構築することに焦点を当てた新しい視点のおかげで、GenVISはオンラインと半オンラインの両方で柔軟に実行できる。
提案手法を,YouTube-VIS 2019/2021/2022,Occluded VIS (OVIS) で評価し,最先端の結果を得た。
特に、ロングVISベンチマーク(OVIS)の最先端性能を大きく上回り、ResNet-50のバックボーンで5.6 APを改善した。
コードはhttps://github.com/miranheo/GenVIS.comで入手できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - TCOVIS: Temporally Consistent Online Video Instance Segmentation [98.29026693059444]
そこで我々は,TCOVISというビデオインスタンスセグメンテーションのための新しいオンライン手法を提案する。
本手法のコアは,グローバルなインスタンス割り当て戦略とビデオ時間拡張モジュールから構成される。
提案手法を4つのVISベンチマークで評価し,ベル・アンド・ウィストルを使わずに全ベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T07:59:15Z) - NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation [22.200700685751826]
ビデオインスタンス(VIS)コミュニティは、オフラインメソッドは一般的にオンライン処理によってフレームよりも優れているという共通の信念の下で運営されている。
本稿では、異なる処理パラダイムの詳細な分析と、新しいエンドツーエンドビデオインスタンス法を提案する。
我々のNOVISは、手作りの追跡を避ける最初のニアオンラインVISアプローチである。
論文 参考訳(メタデータ) (2023-08-29T12:51:04Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training [84.81566912372328]
MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-03T17:50:42Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。