論文の概要: VISOLO: Grid-Based Space-Time Aggregation for Efficient Online Video
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2112.04177v1
- Date: Wed, 8 Dec 2021 08:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:40:49.064275
- Title: VISOLO: Grid-Based Space-Time Aggregation for Efficient Online Video
Instance Segmentation
- Title(参考訳): VISOLO: 効率的なオンラインビデオインスタンスセグメンテーションのためのグリッドベースの時空間アグリゲーション
- Authors: Su Ho Han, Sukjun Hwang, Seoung Wug Oh, Yeonchool Park, Hyunwoo Kim,
Min-Jung Kim and Seon Joo Kim
- Abstract要約: グリッド構造を持つ特徴表現に基づいて構築されたオンラインビデオインスタンスセグメンテーション(VIS)のための新しい単一ステージフレームワークを提案する。
リアルタイム処理には完全な畳み込みネットワークを使用します。
我々の設計は、VISのすべてのタスクのグリッド形式の以前の情報を効率的に活用し、YouTube-VIS 2019と2021のデータセットで新しい最先端の精度(38.6 APと36.9 AP)とスピード(40.0 FPS)を達成した。
- 参考スコア(独自算出の注目度): 29.296844376005335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For online video instance segmentation (VIS), fully utilizing the information
from previous frames in an efficient manner is essential for real-time
applications. Most previous methods follow a two-stage approach requiring
additional computations such as RPN and RoIAlign, and do not fully exploit the
available information in the video for all subtasks in VIS. In this paper, we
propose a novel single-stage framework for online VIS built based on the grid
structured feature representation. The grid-based features allow us to employ
fully convolutional networks for real-time processing, and also to easily reuse
and share features within different components. We also introduce cooperatively
operating modules that aggregate information from available frames, in order to
enrich the features for all subtasks in VIS. Our design fully takes advantage
of previous information in a grid form for all tasks in VIS in an efficient
way, and we achieved the new state-of-the-art accuracy (38.6 AP and 36.9 AP)
and speed (40.0 FPS) on YouTube-VIS 2019 and 2021 datasets among online VIS
methods.
- Abstract(参考訳): オンラインビデオインスタンスセグメンテーション(VIS)では、従来のフレームからの情報を効率的に活用することがリアルタイムアプリケーションに不可欠である。
従来の手法のほとんどは、RPNやRoIAlignのような追加の計算を必要とする2段階のアプローチを踏襲しており、VISのすべてのサブタスクでビデオで利用可能な情報を十分に活用していない。
本稿では,グリッド構造特徴表現に基づくオンラインVISのための新しい単一ステージフレームワークを提案する。
グリッドベースの機能により、リアルタイム処理に完全な畳み込みネットワークを使用できるだけでなく、さまざまなコンポーネントで簡単に機能を再利用し共有することができます。
また、利用可能なフレームから情報を集約する協調動作モジュールを導入し、VISのすべてのサブタスクの機能を強化する。
我々の設計は、VISのすべてのタスクのグリッド形式の以前の情報を効率よく活用し、YouTube-VIS 2019と2021のオンラインVISメソッドの新たな最先端の精度(38.6 APと36.9 AP)とスピード(40.0 FPS)を達成した。
関連論文リスト
- UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - TCOVIS: Temporally Consistent Online Video Instance Segmentation [98.29026693059444]
そこで我々は,TCOVISというビデオインスタンスセグメンテーションのための新しいオンライン手法を提案する。
本手法のコアは,グローバルなインスタンス割り当て戦略とビデオ時間拡張モジュールから構成される。
提案手法を4つのVISベンチマークで評価し,ベル・アンド・ウィストルを使わずに全ベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T07:59:15Z) - A Generalized Framework for Video Instance Segmentation [49.41441806931224]
ビデオインスタンスセグメンテーション(VIS)コミュニティでは,複雑なシーケンスと隠蔽シーケンスによる長いビデオの処理が,新たな課題として浮上している。
我々は、挑戦的なベンチマーク上で最先端のパフォーマンスを達成するための、VISの一般化されたフレームワーク、すなわちGenVISを提案する。
我々は、YouTube-VIS 2019/2021/2022およびOccluded VIS (OVIS)上で、人気VISベンチマークに対する我々のアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-16T11:17:19Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation [7.544917072241684]
ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
VISのための一段階空間粒度ネットワーク(SG-Net)を提案する。
提案手法は精度と推論速度の両方で性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-03-18T14:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。