論文の概要: TransVOS: Video Object Segmentation with Transformers
- arxiv url: http://arxiv.org/abs/2106.00588v1
- Date: Tue, 1 Jun 2021 15:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:38:26.535430
- Title: TransVOS: Video Object Segmentation with Transformers
- Title(参考訳): TransVOS: トランスフォーマーによるビデオオブジェクトセグメンテーション
- Authors: Jianbiao Mei, Mengmeng Wang, Yeneng Lin, Yong Liu
- Abstract要約: 本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
- 参考スコア(独自算出の注目度): 13.311777431243296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Space-Time Memory Network (STM) based methods have achieved
state-of-the-art performance in semi-supervised video object segmentation
(VOS). A critical problem in this task is how to model the dependency both
among different frames and inside every frame. However, most of these methods
neglect the spatial relationships (inside each frame) and do not make full use
of the temporal relationships (among different frames). In this paper, we
propose a new transformer-based framework, termed TransVOS, introducing a
vision transformer to fully exploit and model both the temporal and spatial
relationships. Moreover, most STM-based approaches employ two disparate
encoders to extract features of two significant inputs, i.e., reference sets
(history frames with predicted masks) and query frame, respectively, increasing
the models' parameters and complexity. To slim the popular two-encoder pipeline
while keeping the effectiveness, we design a single two-path feature extractor
to encode the above two inputs in a unified way. Extensive experiments
demonstrate the superiority of our TransVOS over state-of-the-art methods on
both DAVIS and YouTube-VOS datasets. Codes will be released when it is
published.
- Abstract(参考訳): 近年,STM(Space-Time Memory Network)に基づく手法は,半教師付きビデオオブジェクトセグメンテーション(VOS)において最先端のパフォーマンスを実現している。
このタスクにおける重要な問題は、異なるフレームと各フレーム内の依存関係をモデル化する方法である。
しかし、これらの手法の多くは空間的関係(各フレームの内側)を無視し、時間的関係(異なるフレーム)を完全に利用しない。
本稿では,時間的・空間的関係をフル活用し,モデル化するビジョントランスフォーマを導入する,TransVOSと呼ばれる新しいトランスフォーマベースのフレームワークを提案する。
さらに、ほとんどのSTMベースのアプローチでは、2つの異なるエンコーダを使用して、2つの重要な入力、すなわち参照セット(予測マスク付き歴史フレーム)とクエリフレームの特徴を抽出し、モデルのパラメータと複雑さを増大させる。
有効性を保ちながら、人気のある2エンコーダパイプラインをスリム化するために、上記の2つの入力を統一的に符号化する単一の2パス特徴抽出器を設計する。
大規模な実験は、DAVISとYouTube-VOSデータセットの最先端手法よりもTransVOSの方が優れていることを示している。
コードは公開時にリリースされる。
関連論文リスト
- Hierarchical Separable Video Transformer for Snapshot Compressive Imaging [46.23615648331571]
HiSViT(Hierarchical Separable Video Transformer)は、時間的アグリゲーションのない再構成アーキテクチャである。
HiSViTは、CSS-MSAとGSM-FFN(Gated Self-Modulated Feed-Forward Network)の複数グループによって構築されている。
我々のメソッドは、同等または少ないパラメータと複雑さで、以前のメソッドを$!>!0.5$で上回ります。
論文 参考訳(メタデータ) (2024-07-16T17:35:59Z) - OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。