論文の概要: Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2309.11160v1
- Date: Wed, 20 Sep 2023 09:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 16:41:24.154473
- Title: Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation
- Title(参考訳): 少数映像分割のための多粒度時間プロトタイプ学習
- Authors: Nian Liu, Kepan Nan, Wangbo Zhao, Yuanwei Liu, Xiwen Yao, Salman Khan,
Hisham Cholakkal, Rao Muhammad Anwer, Junwei Han, Fahad Shahbaz Khan
- Abstract要約: FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 156.4142424784322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Video Object Segmentation (FSVOS) aims to segment objects in a query
video with the same category defined by a few annotated support images.
However, this task was seldom explored. In this work, based on IPMT, a
state-of-the-art few-shot image segmentation method that combines external
support guidance information with adaptive query guidance cues, we propose to
leverage multi-grained temporal guidance information for handling the temporal
correlation nature of video data. We decompose the query video information into
a clip prototype and a memory prototype for capturing local and long-term
internal temporal guidance, respectively. Frame prototypes are further used for
each frame independently to handle fine-grained adaptive guidance and enable
bidirectional clip-frame prototype communication. To reduce the influence of
noisy memory, we propose to leverage the structural similarity relation among
different predicted regions and the support for selecting reliable memory
frames. Furthermore, a new segmentation loss is also proposed to enhance the
category discriminability of the learned prototypes. Experimental results
demonstrate that our proposed video IPMT model significantly outperforms
previous models on two benchmark datasets. Code is available at
https://github.com/nankepan/VIPMT.
- Abstract(参考訳): FSVOS(Few-Shot Video Object Segmentation)は、いくつかのアノテーション付きサポートイメージで定義された同じカテゴリのクエリビデオにオブジェクトをセグメントすることを目的としている。
しかし、この作業はほとんど探索されなかった。
本研究は,映像データの時間的相関性を扱うために,外部サポートガイダンス情報と適応的なクエリガイダンス手がかりを組み合わせた最新の数ショット画像分割手法であるIPMTに基づいて,多粒度時間的ガイダンス情報を活用することを提案する。
問合せビデオ情報をクリッププロトタイプとメモリプロトタイプに分解して,局所的および長期的内部時間的ガイダンスをキャプチャする。
フレームプロトタイプは、微粒な適応誘導を処理し、双方向のクリップフレームプロトタイプ通信を可能にするために、フレーム毎に独立してさらに使用される。
ノイズメモリの影響を低減するため,異なる予測領域間の構造的類似性関係と,信頼性の高いメモリフレームの選択を支援することを提案する。
さらに,学習したプロトタイプのカテゴリー識別性を高めるために,新たなセグメンテーション損失も提案されている。
実験の結果,提案したビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも有意に優れていた。
コードはhttps://github.com/nankepan/VIPMTで入手できる。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - RefineVIS: Video Instance Segmentation with Temporal Attention
Refinement [23.720986152136785]
RefineVISは、既製のフレームレベルのイメージインスタンスセグメンテーションモデルの上に、2つの別々の表現を学習する。
TAR(Temporal Attention Refinement)モジュールは、時間的関係を利用して識別的セグメンテーション表現を学習する。
YouTube-VIS 2019 (64.4 AP)、Youtube-VIS 2021 (61.4 AP)、OVIS (46.1 AP)データセットで最先端のビデオインスタンスのセグメンテーション精度を達成する。
論文 参考訳(メタデータ) (2023-06-07T20:45:15Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。