論文の概要: Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation
- arxiv url: http://arxiv.org/abs/2203.06318v1
- Date: Sat, 12 Mar 2022 02:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:17:20.483800
- Title: Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation
- Title(参考訳): Deformable VisTR:ビデオ・インスタンス・セグメンテーションのための時空間デフォルマブル・アテンション
- Authors: Sudhir Yarram, Jialian Wu, Pan Ji, Yi Xu, Junsong Yuan
- Abstract要約: ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
- 参考スコア(独自算出の注目度): 79.76273774737555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation (VIS) task requires classifying, segmenting, and
tracking object instances over all frames in a video clip. Recently, VisTR has
been proposed as end-to-end transformer-based VIS framework, while
demonstrating state-of-the-art performance. However, VisTR is slow to converge
during training, requiring around 1000 GPU hours due to the high computational
cost of its transformer attention module. To improve the training efficiency,
we propose Deformable VisTR, leveraging spatio-temporal deformable attention
module that only attends to a small fixed set of key spatio-temporal sampling
points around a reference point. This enables Deformable VisTR to achieve
linear computation in the size of spatio-temporal feature maps. Moreover, it
can achieve on par performance as the original VisTR with 10$\times$ less GPU
training hours. We validate the effectiveness of our method on the Youtube-VIS
benchmark. Code is available at https://github.com/skrya/DefVIS.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(vis)タスクは、ビデオクリップ内の全フレームにわたるオブジェクトインスタンスの分類、セグメンテーション、追跡を必要とする。
近年、VisTRは最先端の性能を示しながら、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
しかし、VisTRはトレーニング中に収束が遅く、トランスフォーマーアテンションモジュールの計算コストが高いため、約1000GPU時間を要する。
トレーニング効率を向上させるために、基準点付近のキー時空間サンプリングポイントの小さな固定セットにのみ対応可能な時空間変形型アテンションモジュールを利用した変形可能なVisTRを提案する。
これにより、デフォルマブル VisTR は時空間特徴写像のサイズで線形計算を行うことができる。
さらに、オリジナルのVisTRと同じパフォーマンスで10$\times$低いGPUトレーニング時間で実現できる。
提案手法の有効性をYoutube-VISベンチマークで検証した。
コードはhttps://github.com/skrya/DefVIS.comで入手できる。
関連論文リスト
- Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation [4.3012765978447565]
ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
論文 参考訳(メタデータ) (2022-07-22T14:27:45Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - Video Instance Segmentation via Multi-scale Spatio-temporal Split
Attention Transformer [77.95612004326055]
ビデオセグメンテーション(VIS)アプローチは通常、注意計算中に単一スケールの時間的特徴またはフレームごとのマルチスケール特徴のいずれかを利用する。
エンコーダにMS-STSアテンションモジュールを組み込んだトランスフォーマーベースのVISフレームワークMS-STS VISを提案する。
MS-STSモジュールは、ビデオ内のフレームをまたいだ複数のスケールにおける分割時間的特徴関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2022-03-24T17:59:20Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。