論文の概要: MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training
- arxiv url: http://arxiv.org/abs/2208.02245v1
- Date: Wed, 3 Aug 2022 17:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:02:12.640692
- Title: MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training
- Title(参考訳): MinVIS:ビデオベースのトレーニングなしの最小ビデオインスタンスセグメンテーションフレームワーク
- Authors: De-An Huang, Zhiding Yu, Anima Anandkumar
- Abstract要約: MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 84.81566912372328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose MinVIS, a minimal video instance segmentation (VIS) framework that
achieves state-of-the-art VIS performance with neither video-based
architectures nor training procedures. By only training a query-based image
instance segmentation model, MinVIS outperforms the previous best result on the
challenging Occluded VIS dataset by over 10% AP. Since MinVIS treats frames in
training videos as independent images, we can drastically sub-sample the
annotated frames in training videos without any modifications. With only 1% of
labeled frames, MinVIS outperforms or is comparable to fully-supervised
state-of-the-art approaches on YouTube-VIS 2019/2021. Our key observation is
that queries trained to be discriminative between intra-frame object instances
are temporally consistent and can be used to track instances without any
manually designed heuristics. MinVIS thus has the following inference pipeline:
we first apply the trained query-based image instance segmentation to video
frames independently. The segmented instances are then tracked by bipartite
matching of the corresponding queries. This inference is done in an online
fashion and does not need to process the whole video at once. MinVIS thus has
the practical advantages of reducing both the labeling costs and the memory
requirements, while not sacrificing the VIS performance. Code is available at:
https://github.com/NVlabs/MinVIS
- Abstract(参考訳): 我々は、ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現する、最小限のビデオインスタンスセグメンテーション(VIS)フレームワークMinVISを提案する。
クエリベースのイメージインスタンスセグメンテーションモデルのみをトレーニングすることにより、MinVISは、挑戦的なOccluded VISデータセットにおいて、以前の最高の結果を10%以上のAPで上回ります。
MinVISは、動画のフレームを独立した画像として扱うので、動画のアノテートフレームを変更せずに大幅にサブサンプル化することができる。
ラベル付きフレームの1%しかなく、minvisはyoutube-vis 2019/2021の最先端のアプローチに匹敵する。
私たちのキーとなる観察は、フレーム内のオブジェクトインスタンス間で区別するように訓練されたクエリは、時間的に一貫性があり、手動で設計されたヒューリスティックスなしでインスタンスを追跡できるということです。
まず、トレーニングされたクエリベースのイメージインスタンスのセグメンテーションを、ビデオフレームに独立して適用します。
セグメント化されたインスタンスは、対応するクエリの2部マッチングによって追跡される。
この推論はオンライン形式で行われ、ビデオ全体を一度に処理する必要はない。
したがってMinVISは、VISの性能を犠牲にすることなく、ラベル付けコストとメモリ要求の両方を削減するという実用的な利点がある。
コードは、https://github.com/NVlabs/MinVISで入手できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - BoxVIS: Video Instance Segmentation with Box Annotations [15.082477136581153]
我々は,最先端の画素教師付きVISモデルをボックス教師付きVISベースラインに適応させ,若干の性能劣化を観測する。
本研究では, 空間的・時間的整合性を改善するために, 空間的・時間的親和性損失を箱中心に誘導し, インスタンスマスクの予測を行う。
アノテーションの時間とコストの16%しか使用せず、最先端のピクセル管理型VISモデルよりも優れたインスタンスマスク予測性能と一般化能力を示す。
論文 参考訳(メタデータ) (2023-03-26T04:04:58Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation [4.3012765978447565]
ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
論文 参考訳(メタデータ) (2022-07-22T14:27:45Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。