論文の概要: Improving Video Instance Segmentation via Temporal Pyramid Routing
- arxiv url: http://arxiv.org/abs/2107.13155v1
- Date: Wed, 28 Jul 2021 03:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 13:59:59.460728
- Title: Improving Video Instance Segmentation via Temporal Pyramid Routing
- Title(参考訳): 時間ピラミッドルーティングによるビデオインスタンスセグメンテーションの改善
- Authors: Xiangtai Li, Hao He, Henghui Ding, Kuiyuan Yang, Guangliang Cheng,
Jianping Shi, Yunhai Tong
- Abstract要約: Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
- 参考スコア(独自算出の注目度): 61.10753640148878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Instance Segmentation (VIS) is a new and inherently multi-task problem,
which aims to detect, segment and track each instance in a video sequence.
Existing approaches are mainly based on single-frame features or single-scale
features of multiple frames, where temporal information or multi-scale
information is ignored. To incorporate both temporal and scale information, we
propose a Temporal Pyramid Routing (TPR) strategy to conditionally align and
conduct pixel-level aggregation from a feature pyramid pair of two adjacent
frames. Specifically, TPR contains two novel components, including Dynamic
Aligned Cell Routing (DACR) and Cross Pyramid Routing (CPR), where DACR is
designed for aligning and gating pyramid features across temporal dimension,
while CPR transfers temporally aggregated features across scale dimension.
Moreover, our approach is a plug-and-play module and can be easily applied to
existing instance segmentation methods. Extensive experiments on YouTube-VIS
dataset demonstrate the effectiveness and efficiency of the proposed approach
on several state-of-the-art instance segmentation methods. Codes and trained
models will be publicly available to facilitate future
research.(\url{https://github.com/lxtGH/TemporalPyramidRouting}).
- Abstract(参考訳): Video Instance Segmentation (VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメント化し、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
既存のアプローチは、主に時間情報やマルチスケール情報を無視するマルチフレームのシングルフレーム機能やシングルスケール機能に基づいている。
時間的情報とスケール的情報の両方を取り込むため,隣接する2つのフレームの特徴ピラミッドペアからピクセルレベルのアグリゲーションを条件付きで調整し,実行するための時間的ピラミッドルーティング(tpr)戦略を提案する。
具体的には、tprにはdynamic aligned cell routing(dacr)とcross pyramid routing(cpr)という2つの新しいコンポーネントが含まれている。
さらに,本手法はプラグイン・アンド・プレイモジュールであり,既存のインスタンスセグメンテーション手法にも容易に適用できる。
youtube-visデータセットの広範な実験は、いくつかの最先端インスタンスセグメンテーション手法における提案手法の有効性と効率を示している。
コードとトレーニングされたモデルは、将来の研究を促進するために公開されます。
(\url{https://github.com/lxtGH/TemporalPyramidRouting})。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition [11.700737340560796]
近年、一部の研究はTransformerを使ってフレームを処理し、注目機能と改良されたプロトタイプを入手し、その結果は競争力がある。
我々は、これらの問題を"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)"と呼ばれるエンドツーエンドの手法で解決する。
提案手法は,HMDB51およびUCF101データセットの最先端結果と,KineeticsベンチマークとV2データセットの競合結果とを比較検討する。
論文 参考訳(メタデータ) (2023-07-05T02:13:25Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。