論文の概要: Mask2Former for Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2112.10764v1
- Date: Mon, 20 Dec 2021 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 14:56:50.886554
- Title: Mask2Former for Video Instance Segmentation
- Title(参考訳): ビデオインスタンス分割のためのMask2Former
- Authors: Bowen Cheng and Anwesa Choudhuri and Ishan Misra and Alexander
Kirillov and Rohit Girdhar and Alexander G. Schwing
- Abstract要約: Mask2Formerは、アーキテクチャや損失、さらにはトレーニングパイプラインを変更することなく、ビデオセグメンテーションインスタンス上で最先端のパフォーマンスを達成する。
本稿では,3次元セグメント化ボリュームを直接予測することにより,映像セグメント化を自明に一般化するユニバーサル画像セグメント化アーキテクチャを示す。
- 参考スコア(独自算出の注目度): 172.10001340104515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We find Mask2Former also achieves state-of-the-art performance on video
instance segmentation without modifying the architecture, the loss or even the
training pipeline. In this report, we show universal image segmentation
architectures trivially generalize to video segmentation by directly predicting
3D segmentation volumes. Specifically, Mask2Former sets a new state-of-the-art
of 60.4 AP on YouTubeVIS-2019 and 52.6 AP on YouTubeVIS-2021. We believe
Mask2Former is also capable of handling video semantic and panoptic
segmentation, given its versatility in image segmentation. We hope this will
make state-of-the-art video segmentation research more accessible and bring
more attention to designing universal image and video segmentation
architectures.
- Abstract(参考訳): Mask2Formerはまた、アーキテクチャや損失、さらにはトレーニングパイプラインを変更することなく、ビデオインスタンスセグメンテーションにおける最先端のパフォーマンスを実現している。
本稿では,3次元セグメント化ボリュームを直接予測することにより,映像セグメント化を自明に一般化するユニバーサル画像セグメント化アーキテクチャについて述べる。
具体的には、Mask2FormerはYouTubeVIS-2019で60.4 AP、YouTubeVIS-2021で52.6 APの最先端を新たに設定している。
Mask2Formerは、画像セグメンテーションの汎用性から、ビデオセグメンテーションやパノプティクスセグメンテーションも扱えると考えている。
これにより、最先端のビデオセグメンテーション研究がよりアクセスしやすくなり、ユニバーサルなイメージとビデオセグメンテーションアーキテクチャの設計により多くの注目を集めることを期待している。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - 2nd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation [12.274092278786966]
ビデオパノプティクス(VPS)は、ビデオ内のすべてのオブジェクトを同時に分類、追跡、セグメンテーションすることを目的としている。
本稿では,ロバストな統合ビデオパノプティクスセグメンテーションソリューションを提案する。
本稿では,VPQ スコア56.36 と 57.12 の最先端性能を開発・試験段階で達成する。
論文 参考訳(メタデータ) (2024-06-01T17:03:16Z) - RefineVIS: Video Instance Segmentation with Temporal Attention
Refinement [23.720986152136785]
RefineVISは、既製のフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する。
TAR(Temporal Attention Refinement)モジュールは、時間的関係を利用して識別的セグメンテーション表現を学習する。
YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。
論文 参考訳(メタデータ) (2023-06-07T20:45:15Z) - Video-kMaX: A Simple Unified Approach for Online and Near-Online Video
Panoptic Segmentation [104.27219170531059]
ビデオパノプティクス(VPS)は、すべてのピクセルをセグメント化し、ビデオ内のオブジェクトを関連付けることで、包括的なピクセルレベルのシーン理解を実現することを目的としている。
現在のソリューションは、オンラインおよびほぼオンラインのアプローチに分類することができる。
オンラインおよびほぼオンラインのVPSに対して統一的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T16:17:25Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Masked-attention Mask Transformer for Universal Image Segmentation [180.73009259614494]
Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処可能な新しいアーキテクチャである。
主要な構成要素は、予測されたマスク領域内での横断的な注意を制限して、局所的な特徴を抽出するマスクアテンションである。
研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-12-02T18:59:58Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。