Fugu-MT 論文翻訳(概要): Consistent Video Instance Segmentation with Inter-Frame Recurrent Attention

論文の概要: Consistent Video Instance Segmentation with Inter-Frame Recurrent Attention

arxiv url: http://arxiv.org/abs/2206.07011v1
Date: Tue, 14 Jun 2022 17:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-15 15:03:39.838437
Title: Consistent Video Instance Segmentation with Inter-Frame Recurrent Attention
Title（参考訳）: フレーム間リカレントアテンションによる連続ビデオインスタンス分割
Authors: Quanzeng You, Jiang Wang, Peng Chu, Andre Abrantes, Zicheng Liu
Abstract要約: ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
参考スコア（独自算出の注目度）: 23.72098615213679
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video instance segmentation aims at predicting object segmentation masks for each frame, as well as associating the instances across multiple frames. Recent end-to-end video instance segmentation methods are capable of performing object segmentation and instance association together in a direct parallel sequence decoding/prediction framework. Although these methods generally predict higher quality object segmentation masks, they can fail to associate instances in challenging cases because they do not explicitly model the temporal instance consistency for adjacent frames. We propose a consistent end-to-end video instance segmentation framework with Inter-Frame Recurrent Attention to model both the temporal instance consistency for adjacent frames and the global temporal context. Our extensive experiments demonstrate that the Inter-Frame Recurrent Attention significantly improves temporal instance consistency while maintaining the quality of the object segmentation masks. Our model achieves state-of-the-art accuracy on both YouTubeVIS-2019 (62.1\%) and YouTubeVIS-2021 (54.7\%) datasets. In addition, quantitative and qualitative results show that the proposed methods predict more temporally consistent instance segmentation masks.
Abstract（参考訳）: ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。これらの手法は一般に高品質なオブジェクトセグメンテーションマスクを予測するが、隣接するフレームの時間的インスタンス一貫性を明示的にモデル化しないため、困難なケースではインスタンスを関連付けることができない。本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。広範囲にわたる実験により,フレーム間再帰的な注目が,オブジェクトセグメンテーションマスクの品質を維持しつつ,時間的インスタンス一貫性を著しく向上することを示した。我々のモデルは、YouTubeVIS-2019 (62.1\%)とYouTubeVIS-2021 (54.7\%)の両方のデータセットで最先端の精度を達成する。さらに,定量的および定性的な結果から,提案手法はより時間的に一貫したインスタンスセグメンテーションマスクを予測する。

関連論文リスト

Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文参考訳（メタデータ） (2024-08-20T08:08:32Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-03-28T13:32:49Z)
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement [23.720986152136785]
RefineVISは、既製のフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する。 TAR(Temporal Attention Refinement)モジュールは、時間的関係を利用して識別的セグメンテーション表現を学習する。 YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。
論文参考訳（メタデータ） (2023-06-07T20:45:15Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Contextual Guided Segmentation Framework for Semi-supervised Video Instance Segmentation [20.174393465900156]
ビデオインスタンスのセグメンテーションを3つのパスで行うためのContextual Guided (CGS) フレームワークを提案する。最初のパス、すなわちプレビューセグメンテーションでは、各インスタンスの主特性を推定するためにインスタンス再識別フローを提案します。第2のパス、すなわちコンテキストセグメンテーションでは、複数のコンテキストセグメンテーションスキームを導入する。 DAVIS Test-Challengeデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-06-07T04:16:50Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)
Weakly Supervised Instance Segmentation for Videos with Temporal Mask Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文参考訳（メタデータ） (2021-03-23T23:20:46Z)
End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文参考訳（メタデータ） (2020-11-30T02:03:50Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。