論文の概要: Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation
- arxiv url: http://arxiv.org/abs/2106.11958v1
- Date: Tue, 22 Jun 2021 17:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:52:39.477143
- Title: Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation
- Title(参考訳): マルチオブジェクト追跡とセグメンテーションのためのプロトタイプ的クロスアテンションネットワーク
- Authors: Lei Ke, Xia Li, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang and
Fisher Yu
- Abstract要約: 複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
- 参考スコア(独自算出の注目度): 95.74244714914052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple object tracking and segmentation requires detecting, tracking, and
segmenting objects belonging to a set of given classes. Most approaches only
exploit the temporal dimension to address the association problem, while
relying on single frame predictions for the segmentation mask itself. We
propose Prototypical Cross-Attention Network (PCAN), capable of leveraging rich
spatio-temporal information for online multiple object tracking and
segmentation. PCAN first distills a space-time memory into a set of prototypes
and then employs cross-attention to retrieve rich information from the past
frames. To segment each object, PCAN adopts a prototypical appearance module to
learn a set of contrastive foreground and background prototypes, which are then
propagated over time. Extensive experiments demonstrate that PCAN outperforms
current video instance tracking and segmentation competition winners on both
Youtube-VIS and BDD100K datasets, and shows efficacy to both one-stage and
two-stage segmentation frameworks. Code will be available at
http://vis.xyz/pub/pcan.
- Abstract(参考訳): 複数のオブジェクトのトラッキングとセグメンテーションは、与えられたクラスの集合に属するオブジェクトの検出、追跡、およびセグメンテーションを必要とする。
ほとんどのアプローチでは、時間次元のみを利用して関連付けの問題に対処し、セグメンテーションマスク自体の単一のフレーム予測に依存する。
オンラインマルチオブジェクト追跡とセグメンテーションのために,豊富な時空間情報を活用するプロトタイプ横断ネットワーク(PCAN)を提案する。
PCANはまず、時空メモリを一連のプロトタイプに蒸留し、その後、クロスアテンションを使用して過去のフレームから豊富な情報を取得する。
各オブジェクトをセグメント化するために、PCANはプロトタイプの外観モジュールを採用し、コントラストのある前景と背景のプロトタイプの集合を学習し、時間とともに伝播する。
大規模な実験により、PCANはYoutube-VISとBDD100Kの両方のデータセットにおいて、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者よりも優れており、一段階と二段階のセグメンテーションフレームワークに有効であることが示された。
コードはhttp://vis.xyz/pub/pcan.comから入手できる。
関連論文リスト
- Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual
Tracking and Segmentation [37.85026590250023]
本稿では,多目的マスクボックス統合フレームワークを提案する。
高精度なマルチオブジェクトボックス予測のための新しいピンポイントボックス予測器を提案する。
MITSは、Visual Object Tracking (VOT)とVideo Object Tracking (VOS)ベンチマークの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-25T09:37:51Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。