論文の概要: SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2112.08275v1
- Date: Wed, 15 Dec 2021 17:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 14:35:11.731343
- Title: SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation
- Title(参考訳): SeqFormer: ビデオインスタンスセグメンテーションのためのフラストレーションにシンプルなモデル
- Authors: Junfeng Wu, Yi Jiang, Wenqing Zhang, Xiang Bai, Song Bai
- Abstract要約: 本稿では,ビデオインスタンスセグメンテーションのためのフラストレーションに富んだシンプルなモデルであるSeqFormerを紹介する。
これを実現するために、SeqFormerは各フレームにインスタンスを配置し、時間情報を集約してビデオレベルのインスタンスの強力な表現を学ぶ。
YouTube-VISデータセットでは、SeqFormerはResNet-50のバックボーンで47.4 AP、ResNet-101のバックボーンで49.0 APを達成した。
- 参考スコア(独自算出の注目度): 74.28619222920989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present SeqFormer, a frustratingly simple model for video
instance segmentation. SeqFormer follows the principle of vision transformer
that models instance relationships among video frames. Nevertheless, we observe
that a stand-alone instance query suffices for capturing a time sequence of
instances in a video, but attention mechanisms should be done with each frame
independently. To achieve this, SeqFormer locates an instance in each frame and
aggregates temporal information to learn a powerful representation of a
video-level instance, which is used to predict the mask sequences on each frame
dynamically. Instance tracking is achieved naturally without tracking branches
or post-processing. On the YouTube-VIS dataset, SeqFormer achieves 47.4 AP with
a ResNet-50 backbone and 49.0 AP with a ResNet-101 backbone without bells and
whistles. Such achievement significantly exceeds the previous state-of-the-art
performance by 4.6 and 4.4, respectively. In addition, integrated with the
recently-proposed Swin transformer, SeqFormer achieves a much higher AP of
59.3. We hope SeqFormer could be a strong baseline that fosters future research
in video instance segmentation, and in the meantime, advances this field with a
more robust, accurate, neat model. The code and the pre-trained models are
publicly available at https://github.com/wjf5203/SeqFormer.
- Abstract(参考訳): 本稿では,ビデオインスタンスセグメンテーションのためのフラストレーションに富んだモデルであるSeqFormerを紹介する。
SeqFormerは、ビデオフレーム間のインスタンス関係をモデル化するビジョントランスフォーマーの原則に従う。
それでも、ビデオ内のインスタンスの時系列をキャプチャするのにスタンドアローンのインスタンスクエリが十分であるが、各フレームで注意機構を独立して行う必要がある。
これを実現するために、seqformerは各フレームにインスタンスを配置し、時間情報を集約して、各フレームのマスクシーケンスを動的に予測するために使用されるビデオレベルのインスタンスの強力な表現を学ぶ。
インスタンスのトラッキングは、ブランチや後処理をトラッキングせずに自然に行われる。
YouTube-VISデータセットでは、SeqFormerはResNet-50のバックボーンで47.4 AP、ResNet-101のバックボーンで49.0 APを達成した。
この成果は、前回の最先端性能をそれぞれ4.6と4.4で大幅に上回っている。
さらに、最近発表されたswinトランスフォーマーと組み合わさったseqformerは、はるかに高い ap 59.3 を達成する。
SeqFormerが、ビデオインスタンスのセグメンテーションにおける将来の研究を促進する強力なベースラインになることを願っている。
コードと事前訓練されたモデルはhttps://github.com/wjf5203/SeqFormer.comで公開されている。
関連論文リスト
- Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - XMem++: Production-level Video Segmentation From Few Annotated Frames [32.68978079571079]
本稿では,既存のメモリベースモデルを改善する半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。
本手法は,要求されるフレームアノテーション数を低く保ちながら,高度に一貫した結果を抽出することができる。
我々は,難易度(部分的・複数クラス)のセグメンテーションシナリオと長大なビデオ上でのSOTA性能を実証する。
論文 参考訳(メタデータ) (2023-07-29T11:18:23Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Hybrid Instance-aware Temporal Fusion for Online Video Instance
Segmentation [23.001856276175506]
本稿では,新しいインスタンス対応時間融合手法を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。
我々のモデルは,全オンラインVIS手法の中で最高の性能を達成している。
論文 参考訳(メタデータ) (2021-12-03T03:37:57Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。