論文の概要: DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2207.11103v1
- Date: Fri, 22 Jul 2022 14:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:50:03.897275
- Title: DeVIS: Making Deformable Transformers Work for Video Instance
Segmentation
- Title(参考訳): DeVIS: ビデオインスタンスセグメンテーションで変形可能なトランスフォーマーを動作させる
- Authors: Adri\`a Caelles and Tim Meinhardt and Guillem Bras\'o and Laura
Leal-Taix\'e
- Abstract要約: ビデオインスタンス(VIS)は、ビデオシーケンスにおける複数オブジェクトの検出、追跡、セグメンテーションに共同で取り組む。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
変形可能な注意は、より効率的な代替手段を提供するが、その時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
- 参考スコア(独自算出の注目度): 4.3012765978447565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Instance Segmentation (VIS) jointly tackles multi-object detection,
tracking, and segmentation in video sequences. In the past, VIS methods
mirrored the fragmentation of these subtasks in their architectural design,
hence missing out on a joint solution. Transformers recently allowed to cast
the entire VIS task as a single set-prediction problem. Nevertheless, the
quadratic complexity of existing Transformer-based methods requires long
training times, high memory requirements, and processing of low-single-scale
feature maps. Deformable attention provides a more efficient alternative but
its application to the temporal domain or the segmentation task have not yet
been explored.
In this work, we present Deformable VIS (DeVIS), a VIS method which
capitalizes on the efficiency and performance of deformable Transformers. To
reason about all VIS subtasks jointly over multiple frames, we present temporal
multi-scale deformable attention with instance-aware object queries. We further
introduce a new image and video instance mask head with multi-scale features,
and perform near-online video processing with multi-cue clip tracking. DeVIS
reduces memory as well as training time requirements, and achieves
state-of-the-art results on the YouTube-VIS 2021, as well as the challenging
OVIS dataset.
Code is available at https://github.com/acaelles97/DeVIS.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(vis)は、ビデオシーケンスにおけるマルチオブジェクト検出、追跡、セグメンテーションに共同で取り組む。
過去にVISメソッドは、これらのサブタスクの断片化をアーキテクチャ設計で反映していたため、共同ソリューションでは欠落していた。
トランスフォーマーは最近、VISタスク全体を単一のセット予測問題としてキャストすることを許可した。
それでも、既存のTransformerベースの手法の二次的な複雑さは、長いトレーニング時間、高いメモリ要求、低単一スケールの機能マップの処理を必要とする。
変形可能な注意はより効率的な代替手段を提供するが、時間領域やセグメンテーションタスクへの応用はまだ検討されていない。
本研究では、変形可能な変換器の効率と性能を活かしたVIS法であるDeformable VIS(DeVIS)を提案する。
複数のフレームにまたがる全てのVISサブタスクを推論するために、インスタンス対応オブジェクトクエリで時間的マルチスケールの変形可能な注意を提示する。
さらに,マルチスケール機能を備えた新たな画像・ビデオインスタンスマスクヘッドを導入し,マルチキュークリップトラッキングによるニアオンラインビデオ処理を行う。
DeVISはメモリとトレーニング時間の要件を減らし、YouTube-VIS 2021の最先端結果と挑戦的なOVISデータセットを達成する。
コードはhttps://github.com/acaelles97/DeVISで入手できる。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - MinVIS: A Minimal Video Instance Segmentation Framework without
Video-based Training [84.81566912372328]
MinVISは最小限のビデオインスタンスセグメンテーションフレームワークである。
ビデオベースのアーキテクチャでもトレーニング手順でも、最先端のVISパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-03T17:50:42Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。