論文の概要: Temporally Efficient Vision Transformer for Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2204.08412v1
- Date: Mon, 18 Apr 2022 17:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 17:10:33.216404
- Title: Temporally Efficient Vision Transformer for Video Instance Segmentation
- Title(参考訳): ビデオインスタンス分割のための高能率映像変換器
- Authors: Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu
Liu, Xun Zhao, Ying Shan
- Abstract要約: ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
- 参考スコア(独自算出の注目度): 40.32376033054237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently vision transformer has achieved tremendous success on image-level
visual recognition tasks. To effectively and efficiently model the crucial
temporal information within a video clip, we propose a Temporally Efficient
Vision Transformer (TeViT) for video instance segmentation (VIS). Different
from previous transformer-based VIS methods, TeViT is nearly convolution-free,
which contains a transformer backbone and a query-based video instance
segmentation head. In the backbone stage, we propose a nearly parameter-free
messenger shift mechanism for early temporal context fusion. In the head
stages, we propose a parameter-shared spatiotemporal query interaction
mechanism to build the one-to-one correspondence between video instances and
queries. Thus, TeViT fully utilizes both framelevel and instance-level temporal
context information and obtains strong temporal modeling capacity with
negligible extra computational cost. On three widely adopted VIS benchmarks,
i.e., YouTube-VIS-2019, YouTube-VIS-2021, and OVIS, TeViT obtains
state-of-the-art results and maintains high inference speed, e.g., 46.6 AP with
68.9 FPS on YouTube-VIS-2019. Code is available at
https://github.com/hustvl/TeViT.
- Abstract(参考訳): 近年,視覚トランスフォーマは画像レベルの視覚認識タスクにおいて大きな成功を収めている。
ビデオクリップ内の重要な時間情報を効果的かつ効率的にモデル化するために,ビデオインスタンス分割のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
従来の変換器ベースのVIS法とは異なり、TeViTは変換器のバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含むほとんど畳み込みフリーである。
バックボーン段階では,初期時間的コンテキスト融合のためのパラメータフリーなメッセンジャーシフト機構を提案する。
本稿では,ビデオインスタンスとクエリの1対1対応性を構築するためのパラメータ共有時空間クエリ対話機構を提案する。
したがって、tevitはフレームレベルとインスタンスレベルの時間的コンテキスト情報の両方を十分に活用し、余分な計算コストで強力な時間的モデリング能力を得る。
YouTube-VIS-2019、YouTube-VIS-2021、OVISの3つの広く採用されているVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
コードはhttps://github.com/hustvl/tevitで入手できる。
関連論文リスト
- TDViT: Temporal Dilated Video Transformer for Dense Video Tasks [35.16197118579414]
TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
論文 参考訳(メタデータ) (2024-02-14T15:41:07Z) - DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation [4.3012765978447565]
ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
論文 参考訳(メタデータ) (2022-07-22T14:27:45Z) - Video Instance Segmentation via Multi-scale Spatio-temporal Split
Attention Transformer [77.95612004326055]
ビデオセグメンテーション(VIS)アプローチは通常、注意計算中に単一スケールの時間的特徴またはフレームごとのマルチスケール特徴のいずれかを利用する。
エンコーダにMS-STSアテンションモジュールを組み込んだトランスフォーマーベースのVISフレームワークMS-STS VISを提案する。
MS-STSモジュールは、ビデオ内のフレームをまたいだ複数のスケールにおける分割時間的特徴関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2022-03-24T17:59:20Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。