論文の概要: Hierarchical Spatiotemporal Transformers for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2307.08263v1
- Date: Mon, 17 Jul 2023 06:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:33:42.484333
- Title: Hierarchical Spatiotemporal Transformers for Video Object Segmentation
- Title(参考訳): ビデオオブジェクト分割のための階層時空間変換器
- Authors: Jun-Sang Yoo, Hongjae Lee, Seung-Won Jung
- Abstract要約: 半教師付きビデオセグメンテーション(VOS)のためのHSTという新しいフレームワーク
HSTは、画像とビデオの機能をそれぞれクエリとメモリとしてキャストする。
HST-Bは、複数の人気のあるベンチマークで最先端の競合より優れている。
- 参考スコア(独自算出の注目度): 13.75929249524668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel framework called HST for semi-supervised video
object segmentation (VOS). HST extracts image and video features using the
latest Swin Transformer and Video Swin Transformer to inherit their inductive
bias for the spatiotemporal locality, which is essential for temporally
coherent VOS. To take full advantage of the image and video features, HST casts
image and video features as a query and memory, respectively. By applying
efficient memory read operations at multiple scales, HST produces hierarchical
features for the precise reconstruction of object masks. HST shows
effectiveness and robustness in handling challenging scenarios with occluded
and fast-moving objects under cluttered backgrounds. In particular, HST-B
outperforms the state-of-the-art competitors on multiple popular benchmarks,
i.e., YouTube-VOS (85.0%), DAVIS 2017 (85.9%), and DAVIS 2016 (94.0%).
- Abstract(参考訳): 本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのHSTと呼ばれる新しいフレームワークを提案する。
HSTは最新のSwin TransformerとVideo Swin Transformerを使って画像と映像の特徴を抽出し、時間的コヒーレントなVOSに不可欠な時空間的局所性に対する誘導バイアスを継承する。
画像とビデオの機能をフル活用するために、HSTは画像とビデオの機能をそれぞれクエリとメモリとしてキャストする。
複数のスケールで効率的なメモリ読み取り操作を適用することで、HSTはオブジェクトマスクの正確な再構築のための階層的特徴を生成する。
HSTは、乱雑な背景の下で、隠蔽された、素早く動くオブジェクトで困難なシナリオを扱う上で、有効性と堅牢性を示す。
特にHST-Bは、YouTube-VOS(85.0%)、DAVIS 2017(85.9%)、DAVIS 2016(94.0%)など、複数の人気ベンチマークで最先端の競合より優れている。
関連論文リスト
- Hierarchical Separable Video Transformer for Snapshot Compressive Imaging [46.23615648331571]
HiSViT(Hierarchical Separable Video Transformer)は、時間的アグリゲーションのない再構成アーキテクチャである。
HiSViTは、CSS-MSAとGSM-FFN(Gated Self-Modulated Feed-Forward Network)の複数グループによって構築されている。
我々のメソッドは、同等または少ないパラメータと複雑さで、以前のメソッドを$!>!0.5$で上回ります。
論文 参考訳(メタデータ) (2024-07-16T17:35:59Z) - ViStripformer: A Token-Efficient Transformer for Versatile Video
Restoration [42.356013390749204]
ViStripformerは、バニラトランスよりもメモリ使用量がはるかに少ない、効率的かつ効率的なトランスアーキテクチャである。
ビデオフレームを水平方向と垂直方向のストリップ状の特徴に分解し,様々な方向や大きさの劣化パターンに対処する。
論文 参考訳(メタデータ) (2023-12-22T08:05:38Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Time-Space Transformers for Video Panoptic Segmentation [3.2489082010225494]
画素レベルのセマンティックスとクリップレベルのインスタンスセグメンテーションを同時に予測する手法を提案する。
我々のネットワークはVPS-Transformerと呼ばれ、単一フレームのパノプティクスセグメンテーションのための畳み込みアーキテクチャと、純粋なTransformerブロックのインスタンス化に基づくビデオモジュールを組み合わせる。
論文 参考訳(メタデータ) (2022-10-07T13:30:11Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。