論文の概要: Time-Space Transformers for Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2210.03546v1
- Date: Fri, 7 Oct 2022 13:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:17:46.468345
- Title: Time-Space Transformers for Video Panoptic Segmentation
- Title(参考訳): ビデオパノプティックセグメンテーションのための時間空間変換器
- Authors: Andra Petrovai and Sergiu Nedevschi
- Abstract要約: 画素レベルのセマンティックスとクリップレベルのインスタンスセグメンテーションを同時に予測する手法を提案する。
我々のネットワークはVPS-Transformerと呼ばれ、単一フレームのパノプティクスセグメンテーションのための畳み込みアーキテクチャと、純粋なTransformerブロックのインスタンス化に基づくビデオモジュールを組み合わせる。
- 参考スコア(独自算出の注目度): 3.2489082010225494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel solution for the task of video panoptic segmentation, that
simultaneously predicts pixel-level semantic and instance segmentation and
generates clip-level instance tracks. Our network, named VPS-Transformer, with
a hybrid architecture based on the state-of-the-art panoptic segmentation
network Panoptic-DeepLab, combines a convolutional architecture for
single-frame panoptic segmentation and a novel video module based on an
instantiation of the pure Transformer block. The Transformer, equipped with
attention mechanisms, models spatio-temporal relations between backbone output
features of current and past frames for more accurate and consistent panoptic
estimates. As the pure Transformer block introduces large computation overhead
when processing high resolution images, we propose a few design changes for a
more efficient compute. We study how to aggregate information more effectively
over the space-time volume and we compare several variants of the Transformer
block with different attention schemes. Extensive experiments on the
Cityscapes-VPS dataset demonstrate that our best model improves the temporal
consistency and video panoptic quality by a margin of 2.2%, with little extra
computation.
- Abstract(参考訳): 本研究では,画素レベルの意味とインスタンスのセグメンテーションを同時に予測し,クリップレベルのインスタンストラックを生成する,ビデオパノミックセグメンテーションの課題に対する新しい解法を提案する。
当社のネットワークはVPS-Transformerと呼ばれ,最先端のパノプティックセグメンテーションネットワークPanoptic-DeepLabをベースとしたハイブリッドアーキテクチャで,単一フレームのパノプティックセグメンテーションのための畳み込みアーキテクチャと,純粋なトランスフォーマーブロックのインスタンス化に基づく新しいビデオモジュールを組み合わせた。
トランスフォーマーはアテンション機構を備え、現在のフレームと過去のフレームのバックボーン出力特性の時空間的関係をモデル化し、より正確で一貫した汎光学推定を行う。
純粋なTransformerブロックは高解像度画像を処理する際に大きな計算オーバーヘッドをもたらすため、より効率的な計算のためのいくつかの設計変更を提案する。
本研究では, 時空間ボリュームより効率的に情報を集約する方法を考察し, 異なる注意方式のトランスフォーマブロックのいくつかの変種を比較した。
Cityscapes-VPSデータセットの大規模な実験により、私たちの最良のモデルは、時間的一貫性とビデオパノプティクスの品質を2.2%改善し、余分な計算はほとんどないことを示した。
関連論文リスト
- Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine
Strategy [16.436012370209845]
非参照品質評価の目的は、高精細参照にアクセスせずに歪みビデオの品質を評価することである。
本研究では,複数の画像品質評価データセットを事前学習した拡張空間認識モジュールと,軽量時間融合モジュールを紹介する。
論文 参考訳(メタデータ) (2024-01-16T17:33:54Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。