論文の概要: Hybrid Instance-aware Temporal Fusion for Online Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2112.01695v1
- Date: Fri, 3 Dec 2021 03:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:55:08.095408
- Title: Hybrid Instance-aware Temporal Fusion for Online Video Instance
Segmentation
- Title(参考訳): オンラインビデオインスタンス分割のためのハイブリッドインスタンス対応テンポラルフュージョン
- Authors: Xiang Li, Jinglu Wang, Xiao Li, Yan Lu
- Abstract要約: 本稿では,新しいインスタンス対応時間融合手法を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。
我々のモデルは,全オンラインVIS手法の中で最高の性能を達成している。
- 参考スコア(独自算出の注目度): 23.001856276175506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based image segmentation methods have achieved notable
success against previous solutions. While for video domains, how to effectively
model temporal context with the attention of object instances across frames
remains an open problem. In this paper, we propose an online video instance
segmentation framework with a novel instance-aware temporal fusion method. We
first leverages the representation, i.e., a latent code in the global context
(instance code) and CNN feature maps to represent instance- and pixel-level
features. Based on this representation, we introduce a cropping-free temporal
fusion approach to model the temporal consistency between video frames.
Specifically, we encode global instance-specific information in the instance
code and build up inter-frame contextual fusion with hybrid attentions between
the instance codes and CNN feature maps. Inter-frame consistency between the
instance codes are further enforced with order constraints. By leveraging the
learned hybrid temporal consistency, we are able to directly retrieve and
maintain instance identities across frames, eliminating the complicated
frame-wise instance matching in prior methods. Extensive experiments have been
conducted on popular VIS datasets, i.e. Youtube-VIS-19/21. Our model achieves
the best performance among all online VIS methods. Notably, our model also
eclipses all offline methods when using the ResNet-50 backbone.
- Abstract(参考訳): 近年,トランスフォーマチックな画像分割手法が,従来のソリューションに対して顕著な成功を収めている。
ビデオドメインでは、フレーム間のオブジェクトインスタンスの注意を伴う時間的コンテキストを効果的にモデル化する方法は、未解決の問題である。
本稿では,新しいインスタンス対応時間融合方式を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。
まず、グローバルコンテキスト(インスタンスコード)における潜在コードとCNNの機能マップを使って、インスタンスレベルの特徴とピクセルレベルの特徴を表現します。
この表現に基づいて,ビデオフレーム間の時間的一貫性をモデル化する,トリミングフリーの時間的融合手法を提案する。
具体的には、グローバルなインスタンス固有の情報をインスタンスコードにエンコードし、インスタンスコードとCNNの機能マップ間のハイブリッドな注意によるフレーム間コンテキスト融合を構築します。
インスタンスコード間のフレーム間の一貫性はさらに順序制約によって強化される。
学習したハイブリッドな時間的整合性を利用することで、フレーム間でインスタンスの同一性を直接検索し、維持することが可能になります。
一般的なVISデータセット、すなわちYoutube-VIS-19/21で大規模な実験が行われた。
我々のモデルは,全オンラインVIS手法の中で最高の性能を達成する。
特に、私たちのモデルはResNet-50バックボーンを使用するとき、すべてのオフラインメソッドを廃止しています。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - InstanceFormer: An Online Video Instance Segmentation Framework [21.760243214387987]
本稿では,一段変換器を用いた効率的なオンラインVISフレームワーク InstanceFormer を提案する。
本稿では,短期的・長期的依存と時間的コヒーレンスをモデル化するための3つの新しいコンポーネントを提案する。
提案されたInstanceFormerは、従来のオンラインベンチマークメソッドよりも、複数のデータセットで大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-08-22T18:54:18Z) - Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention [23.72098615213679]
ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:22:55Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。