論文の概要: Video Instance Segmentation via Multi-scale Spatio-temporal Split
Attention Transformer
- arxiv url: http://arxiv.org/abs/2203.13253v1
- Date: Thu, 24 Mar 2022 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:39:38.578314
- Title: Video Instance Segmentation via Multi-scale Spatio-temporal Split
Attention Transformer
- Title(参考訳): マルチスケール時分割アテンション変換器によるビデオインスタンス分割
- Authors: Omkar Thawakar, Sanath Narayan, Jiale Cao, Hisham Cholakkal, Rao
Muhammad Anwer, Muhammad Haris Khan, Salman Khan, Michael Felsberg and Fahad
Shahbaz Khan
- Abstract要約: ビデオセグメンテーション(VIS)アプローチは通常、注意計算中に単一スケールの時間的特徴またはフレームごとのマルチスケール特徴のいずれかを利用する。
エンコーダにMS-STSアテンションモジュールを組み込んだトランスフォーマーベースのVISフレームワークMS-STS VISを提案する。
MS-STSモジュールは、ビデオ内のフレームをまたいだ複数のスケールにおける分割時間的特徴関係を効果的にキャプチャする。
- 参考スコア(独自算出の注目度): 77.95612004326055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art transformer-based video instance segmentation (VIS)
approaches typically utilize either single-scale spatio-temporal features or
per-frame multi-scale features during the attention computations. We argue that
such an attention computation ignores the multi-scale spatio-temporal feature
relationships that are crucial to tackle target appearance deformations in
videos. To address this issue, we propose a transformer-based VIS framework,
named MS-STS VIS, that comprises a novel multi-scale spatio-temporal split
(MS-STS) attention module in the encoder. The proposed MS-STS module
effectively captures spatio-temporal feature relationships at multiple scales
across frames in a video. We further introduce an attention block in the
decoder to enhance the temporal consistency of the detected instances in
different frames of a video. Moreover, an auxiliary discriminator is introduced
during training to ensure better foreground-background separability within the
multi-scale spatio-temporal feature space. We conduct extensive experiments on
two benchmarks: Youtube-VIS (2019 and 2021). Our MS-STS VIS achieves
state-of-the-art performance on both benchmarks. When using the ResNet50
backbone, our MS-STS achieves a mask AP of 50.1 %, outperforming the best
reported results in literature by 2.7 % and by 4.8 % at higher overlap
threshold of AP_75, while being comparable in model size and speed on
Youtube-VIS 2019 val. set. When using the Swin Transformer backbone, MS-STS VIS
achieves mask AP of 61.0 % on Youtube-VIS 2019 val. set. Our code and models
are available at https://github.com/OmkarThawakar/MSSTS-VIS.
- Abstract(参考訳): State-of-the-the-art transformer-based video instance segmentation (VIS) アプローチは通常、注意計算中に単一スケールの時空間的特徴またはフレーム単位のマルチスケール特徴を利用する。
このような注意力計算は,ビデオの出現変形を対象とするマルチスケールな時空間的特徴関係を無視するものである。
そこで本研究では,マルチスケール時空間分割(MS-STS)アテンションモジュールをエンコーダに実装したトランスフォーマーベースのVISフレームワークであるMS-STS VISを提案する。
提案したMS-STSモジュールは,ビデオ中のフレーム間の複数スケールの時空間的特徴関係を効果的にキャプチャする。
さらに、ビデオの異なるフレームにおける検出されたインスタンスの時間的一貫性を高めるために、デコーダに注意ブロックを導入する。
さらに,マルチスケール時空間における前景・背景分離性を向上させるため,訓練中に補助判別器を導入する。
われわれは、Youtube-VIS (2019 と 2021) という2つのベンチマークで広範な実験を行った。
我々のMS-STS VISは両方のベンチマークで最先端のパフォーマンスを達成する。
ResNet50のバックボーンを使用すると、我々のMS-STSは50.1 %のマスクAPを達成し、文学における最高の報告結果を2.7%、AP_75の重なり合う閾値で4.8%上回った。
セット
Swin Transformerのバックボーンを使用すると、MS-STS VISはYoutube-VIS 2019 valで61.0%のマスクAPを達成する。
セット
私たちのコードとモデルはhttps://github.com/OmkarThawakar/MSSTS-VIS.comで公開されています。
関連論文リスト
- UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation [4.3012765978447565]
ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
論文 参考訳(メタデータ) (2022-07-22T14:27:45Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。