論文の概要: Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention
- arxiv url: http://arxiv.org/abs/2206.07011v1
- Date: Tue, 14 Jun 2022 17:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 15:03:39.838437
- Title: Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention
- Title(参考訳): フレーム間リカレントアテンションによる連続ビデオインスタンス分割
- Authors: Quanzeng You, Jiang Wang, Peng Chu, Andre Abrantes, Zicheng Liu
- Abstract要約: ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.72098615213679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation aims at predicting object segmentation masks for
each frame, as well as associating the instances across multiple frames. Recent
end-to-end video instance segmentation methods are capable of performing object
segmentation and instance association together in a direct parallel sequence
decoding/prediction framework. Although these methods generally predict higher
quality object segmentation masks, they can fail to associate instances in
challenging cases because they do not explicitly model the temporal instance
consistency for adjacent frames. We propose a consistent end-to-end video
instance segmentation framework with Inter-Frame Recurrent Attention to model
both the temporal instance consistency for adjacent frames and the global
temporal context. Our extensive experiments demonstrate that the Inter-Frame
Recurrent Attention significantly improves temporal instance consistency while
maintaining the quality of the object segmentation masks. Our model achieves
state-of-the-art accuracy on both YouTubeVIS-2019 (62.1\%) and YouTubeVIS-2021
(54.7\%) datasets. In addition, quantitative and qualitative results show that
the proposed methods predict more temporally consistent instance segmentation
masks.
- Abstract(参考訳): ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
これらの手法は一般に高品質なオブジェクトセグメンテーションマスクを予測するが、隣接するフレームの時間的インスタンス一貫性を明示的にモデル化しないため、困難なケースではインスタンスを関連付けることができない。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
広範囲にわたる実験により,フレーム間再帰的な注目が,オブジェクトセグメンテーションマスクの品質を維持しつつ,時間的インスタンス一貫性を著しく向上することを示した。
我々のモデルは、YouTubeVIS-2019 (62.1\%)とYouTubeVIS-2021 (54.7\%)の両方のデータセットで最先端の精度を達成する。
さらに,定量的および定性的な結果から,提案手法はより時間的に一貫したインスタンスセグメンテーションマスクを予測する。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Towards Temporally Consistent Referring Video Object Segmentation [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - RefineVIS: Video Instance Segmentation with Temporal Attention
Refinement [23.720986152136785]
RefineVISは、既製のフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する。
TAR(Temporal Attention Refinement)モジュールは、時間的関係を利用して識別的セグメンテーション表現を学習する。
YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。
論文 参考訳(メタデータ) (2023-06-07T20:45:15Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Contextual Guided Segmentation Framework for Semi-supervised Video
Instance Segmentation [20.174393465900156]
ビデオインスタンスのセグメンテーションを3つのパスで行うためのContextual Guided (CGS) フレームワークを提案する。
最初のパス、すなわちプレビューセグメンテーションでは、各インスタンスの主特性を推定するためにインスタンス再識別フローを提案します。
第2のパス、すなわちコンテキストセグメンテーションでは、複数のコンテキストセグメンテーションスキームを導入する。
DAVIS Test-Challengeデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-07T04:16:50Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。