論文の概要: Video Instance Segmentation by Instance Flow Assembly
- arxiv url: http://arxiv.org/abs/2110.10599v1
- Date: Wed, 20 Oct 2021 14:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:17:13.613254
- Title: Video Instance Segmentation by Instance Flow Assembly
- Title(参考訳): インスタンスフローアセンブリによるビデオインスタンス分割
- Authors: Xiang Li, Jinglu Wang, Xiao Li, Yan Lu
- Abstract要約: 箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 23.001856276175506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance segmentation is a challenging task aiming at classifying and
segmenting all object instances of specific classes. While two-stage box-based
methods achieve top performances in the image domain, they cannot easily extend
their superiority into the video domain. This is because they usually deal with
features or images cropped from the detected bounding boxes without alignment,
failing to capture pixel-level temporal consistency. We embrace the observation
that bottom-up methods dealing with box-free features could offer accurate
spacial correlations across frames, which can be fully utilized for object and
pixel level tracking. We first propose our bottom-up framework equipped with a
temporal context fusion module to better encode inter-frame correlations.
Intra-frame cues for semantic segmentation and object localization are
simultaneously extracted and reconstructed by corresponding decoders after a
shared backbone. For efficient and robust tracking among instances, we
introduce an instance-level correspondence across adjacent frames, which is
represented by a center-to-center flow, termed as instance flow, to assemble
messy dense temporal correspondences. Experiments demonstrate that the proposed
method outperforms the state-of-the-art online methods (taking image-level
input) on the challenging Youtube-VIS dataset.
- Abstract(参考訳): インスタンスのセグメンテーションは、特定のクラスのすべてのオブジェクトインスタンスの分類とセグメンテーションを目的とした、難しいタスクである。
2段階のボックスベースメソッドは、画像領域で最高のパフォーマンスを達成するが、ビデオ領域にその優位性を容易に拡張することはできない。
これは通常、検出された境界ボックスから取得した特徴やイメージをアライメントなしで処理し、ピクセルレベルの時間的一貫性を捉えることができないためである。
我々は,ボックスフリー機能を扱うボトムアップ手法がフレーム間の空間的相関を精度良く提供し,オブジェクトやピクセルレベルのトラッキングに活用できるという観察を取り入れている。
まず,フレーム間相関をよりよくエンコードする時間的コンテキスト融合モジュールを備えたボトムアップフレームワークを提案する。
セマンティクスセグメンテーションとオブジェクトローカライゼーションのためのフレーム内キューを同時に抽出し、共有バックボーンの後に対応するデコーダによって再構築する。
インスタンス間の効率的かつロバストな追跡を行うために,インスタンスフローと呼ばれる中心から中心へのフローで表される隣接フレーム間のインスタンスレベル対応を導入し,乱雑な時間的対応を組み立てる。
実験により、提案手法がyoutube-visデータセットにおける最先端のオンライン手法(画像レベルの入力)よりも優れていることが証明された。
関連論文リスト
- Context-Aware Video Instance Segmentation [12.71520768233772]
本稿では,コンテキスト対応型ビデオインスタンス(CAVIS)について紹介する。
本研究では、コンテキスト認識型インスタンス追跡装置(CAIT)を提案する。これは、インスタンスを取り巻くコンテキストデータをコアインスタンス機能とマージすることで、トラッキング精度を向上させる。
また,PCC(Prototypeal Cross-frame Contrastive)ロスを導入し,フレーム間のオブジェクトレベルの特徴の整合性を確保する。
論文 参考訳(メタデータ) (2024-07-03T11:11:16Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention [23.72098615213679]
ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:22:55Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Hybrid Instance-aware Temporal Fusion for Online Video Instance
Segmentation [23.001856276175506]
本稿では,新しいインスタンス対応時間融合手法を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。
我々のモデルは,全オンラインVIS手法の中で最高の性能を達成している。
論文 参考訳(メタデータ) (2021-12-03T03:37:57Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。