論文の概要: FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching
- arxiv url: http://arxiv.org/abs/2505.13174v1
- Date: Mon, 19 May 2025 14:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.653606
- Title: FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching
- Title(参考訳): FlowCut: テンポラルマスクマッチングによる教師なしビデオインスタンスセグメンテーション
- Authors: Alp Eren Sari, Paolo Favaro,
- Abstract要約: FlowCutは、3段階のフレームワークで構成される教師なしのビデオインスタンスセグメンテーションの方法である。
最初の段階では、画像と光の流れの両方から特徴の親和性を利用して擬似インスタントマスクを生成する。
第2段階では、フレーム間の時間的マッチングにより、高品質で一貫した擬似インスタントマスクを含む短いビデオセグメントを構築する。
第3段階では、YouTubeVIS-2021ビデオデータセットを使用して、トレーニングインスタンスセグメンテーションセットを抽出し、ビデオセグメンテーションモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 19.401125268811015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose FlowCut, a simple and capable method for unsupervised video instance segmentation consisting of a three-stage framework to construct a high-quality video dataset with pseudo labels. To our knowledge, our work is the first attempt to curate a video dataset with pseudo-labels for unsupervised video instance segmentation. In the first stage, we generate pseudo-instance masks by exploiting the affinities of features from both images and optical flows. In the second stage, we construct short video segments containing high-quality, consistent pseudo-instance masks by temporally matching them across the frames. In the third stage, we use the YouTubeVIS-2021 video dataset to extract our training instance segmentation set, and then train a video segmentation model. FlowCut achieves state-of-the-art performance on the YouTubeVIS-2019, YouTubeVIS-2021, DAVIS-2017, and DAVIS-2017 Motion benchmarks.
- Abstract(参考訳): 疑似ラベル付き高品質なビデオデータセットを構築するための3段階のフレームワークからなる、教師なしビデオインスタンスセグメンテーションの簡易かつ有能なFlowCutを提案する。
私たちの研究は、教師なしのビデオインスタンスセグメンテーションのために擬似ラベルでビデオデータセットをキュレートする最初の試みである。
最初の段階では、画像と光の流れの両方から特徴の親和性を利用して擬似インスタントマスクを生成する。
第2段階では、フレーム間の時間的マッチングにより、高品質で一貫した擬似インスタントマスクを含む短いビデオセグメントを構築する。
第3段階では、YouTubeVIS-2021ビデオデータセットを使用して、トレーニングインスタンスセグメンテーションセットを抽出し、ビデオセグメンテーションモデルをトレーニングします。
FlowCutは、YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017、DAVIS-2017 Motionベンチマークで最先端のパフォーマンスを達成した。
関連論文リスト
- PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T05:22:39Z) - UVIS: Unsupervised Video Instance Segmentation [65.46196594721545]
ビデオキャプションインスタンスのセグメンテーションには、ビデオフレームをまたいだすべてのオブジェクトの分類、セグメンテーション、追跡が必要である。
UVISは,ビデオアノテーションや高密度ラベルに基づく事前学習を必要とせずに,ビデオインスタンスのセグメンテーションを行うことのできる,新しいUnsupervised Video Instance (UVIS) フレームワークである。
本フレームワークは,フレームレベルの擬似ラベル生成,トランスフォーマーベースのVISモデルトレーニング,クエリベースのトラッキングという3つの重要なステップで構成されている。
論文 参考訳(メタデータ) (2024-06-11T03:05:50Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - TubeFormer-DeepLab: Video Mask Transformer [98.47947102154217]
本研究では,複数のコアビデオセグメンテーションタスクを統一的に処理するための最初の試みであるTubeFormer-DeepLabを紹介する。
TubeFormer-DeepLabは、タスク固有のラベルでビデオチューブを直接予測する。
論文 参考訳(メタデータ) (2022-05-30T18:10:33Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Spatial Feature Calibration and Temporal Fusion for Effective One-stage
Video Instance Segmentation [16.692219644392253]
本稿では,空間キャリブレーションと時間融合による一段階ビデオインスタンスセグメンテーションフレームワークであるstmaskを提案する。
YouTube-VIS検証セットの実験では、提案されたSTMaskとResNet-50/-101のバックボーンが33.5 %/36.8 %のマスクAPを取得し、ビデオインスタンスセグメンテーションでは28.6 / 23.4 FPSを達成した。
論文 参考訳(メタデータ) (2021-04-06T09:26:58Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。