論文の概要: Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency
- arxiv url: http://arxiv.org/abs/2103.12886v1
- Date: Tue, 23 Mar 2021 23:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:05:56.673476
- Title: Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency
- Title(参考訳): 時間的マスク一貫性を有するビデオに対する弱教師付きインスタンスセグメンテーション
- Authors: Qing Liu, Vignesh Ramanathan, Dhruv Mahajan, Alan Yuille, Zhenheng
Yang
- Abstract要約: 弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
- 参考スコア(独自算出の注目度): 28.352140544936198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised instance segmentation reduces the cost of annotations
required to train models. However, existing approaches which rely only on
image-level class labels predominantly suffer from errors due to (a) partial
segmentation of objects and (b) missing object predictions. We show that these
issues can be better addressed by training with weakly labeled videos instead
of images. In videos, motion and temporal consistency of predictions across
frames provide complementary signals which can help segmentation. We are the
first to explore the use of these video signals to tackle weakly supervised
instance segmentation. We propose two ways to leverage this information in our
model. First, we adapt inter-pixel relation network (IRN) to effectively
incorporate motion information during training. Second, we introduce a new
MaskConsist module, which addresses the problem of missing object instances by
transferring stable predictions between neighboring frames during training. We
demonstrate that both approaches together improve the instance segmentation
metric $AP_{50}$ on video frames of two datasets: Youtube-VIS and Cityscapes by
$5\%$ and $3\%$ respectively.
- Abstract(参考訳): 弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
しかしながら、画像レベルのクラスラベルにのみ依存する既存のアプローチは、(a)オブジェクトの部分的なセグメンテーションと(b)オブジェクトの不足によるエラーが主な原因である。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
ビデオでは、フレーム間の予測の運動と時間的一貫性は、セグメンテーションに役立つ補完的な信号を提供する。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
我々はこの情報をモデルに活用する方法を2つ提案する。
まず、画素間関係ネットワーク(IRN)を適用し、トレーニング中の動作情報を効果的に活用する。
第二に、トレーニング中に隣接するフレーム間で安定した予測を転送することで、オブジェクトインスタンスの欠落の問題に対処する新しいMaskConsistモジュールを導入する。
2つのデータセット(Youtube-VIS)とCityscapes(Cityscapes)の動画フレーム上でのインスタンスセグメンテーションの指標である$AP_{50}$をそれぞれ5\%、$3\%改善することが実証された。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - RefineVIS: Video Instance Segmentation with Temporal Attention
Refinement [23.720986152136785]
RefineVISは、既製のフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する。
TAR(Temporal Attention Refinement)モジュールは、時間的関係を利用して識別的セグメンテーション表現を学習する。
YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。
論文 参考訳(メタデータ) (2023-06-07T20:45:15Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention [23.72098615213679]
ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:22:55Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Weakly Supervised Instance Segmentation using Motion Information via
Optical Flow [3.0763099528432263]
画像と光の流れから抽出した外観と運動の特徴を利用する2ストリームエンコーダを提案する。
提案手法は,最先端手法の平均精度を3.1倍に向上することを示した。
論文 参考訳(メタデータ) (2022-02-25T22:41:54Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。