論文の概要: Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual
Tracking and Segmentation
- arxiv url: http://arxiv.org/abs/2308.13266v3
- Date: Thu, 21 Sep 2023 06:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:44:58.018994
- Title: Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual
Tracking and Segmentation
- Title(参考訳): ボックスとマスクの統合: 視覚追跡とセグメンテーションの統合のためのマルチオブジェクトフレームワーク
- Authors: Yuanyou Xu, Zongxin Yang, Yi Yang
- Abstract要約: 本稿では,多目的マスクボックス統合フレームワークを提案する。
高精度なマルチオブジェクトボックス予測のための新しいピンポイントボックス予測器を提案する。
MITSは、Visual Object Tracking (VOT)とVideo Object Tracking (VOS)ベンチマークの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 37.85026590250023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking any given object(s) spatially and temporally is a common purpose in
Visual Object Tracking (VOT) and Video Object Segmentation (VOS). Joint
tracking and segmentation have been attempted in some studies but they often
lack full compatibility of both box and mask in initialization and prediction,
and mainly focus on single-object scenarios. To address these limitations, this
paper proposes a Multi-object Mask-box Integrated framework for unified
Tracking and Segmentation, dubbed MITS. Firstly, the unified identification
module is proposed to support both box and mask reference for initialization,
where detailed object information is inferred from boxes or directly retained
from masks. Additionally, a novel pinpoint box predictor is proposed for
accurate multi-object box prediction, facilitating target-oriented
representation learning. All target objects are processed simultaneously from
encoding to propagation and decoding, as a unified pipeline for VOT and VOS.
Experimental results show MITS achieves state-of-the-art performance on both
VOT and VOS benchmarks. Notably, MITS surpasses the best prior VOT competitor
by around 6% on the GOT-10k test set, and significantly improves the
performance of box initialization on VOS benchmarks. The code is available at
https://github.com/yoxu515/MITS.
- Abstract(参考訳): 任意のオブジェクトを空間的かつ時間的に追跡することは、Visual Object Tracking (VOT) と Video Object Segmentation (VOS) において共通の目的である。
共同追跡とセグメンテーションはいくつかの研究で試みられているが、初期化と予測においてボックスとマスクの完全な互換性を欠くことが多く、主に単目的シナリオに焦点を当てている。
これらの制限に対処するため,本稿では,統一追跡とセグメンテーションのためのマルチオブジェクトマスクボックス統合フレームワークmitsを提案する。
まず、初期化のためのボックス参照とマスク参照の両方をサポートするために、ボックスから詳細なオブジェクト情報が推測されるか、マスクから直接保持される統一識別モジュールを提案する。
さらに、ターゲット指向表現学習を容易にするために、高精度な多目的ボックス予測のための新しいピンポイントボックス予測器を提案する。
すべての対象オブジェクトは、VOTとVOSの統一パイプラインとして、エンコーディングから伝播、復号化まで同時に処理される。
実験の結果、MITSはVOTとVOSのベンチマークで最先端のパフォーマンスを達成した。
特に、MITSはGOT-10kテストセットにおいて、最上位のVOT競合を約6%上回り、VOSベンチマークにおけるボックス初期化の性能を大幅に改善している。
コードはhttps://github.com/yoxu515/MITSで公開されている。
関連論文リスト
- Beyond SOT: Tracking Multiple Generic Objects at Once [141.36900362724975]
ジェネリックオブジェクト追跡(ジェネリックオブジェクト追跡、英: Generic Object Tracking、GOT)は、ビデオの最初のフレームでボックスをバウンディングすることによって指定されたターゲットオブジェクトを追跡する問題である。
大規模GOTベンチマークであるLaGOTを導入し,複数のアノテート対象オブジェクトをシーケンス毎に含む。
提案手法は単一オブジェクトのGOTデータセットに対して高い競合性を実現し,TrackingNet上での新たな技術状態が84.4%の成功率で設定されている。
論文 参考訳(メタデータ) (2022-12-22T17:59:19Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Make One-Shot Video Object Segmentation Efficient Again [7.7415390727490445]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
論文 参考訳(メタデータ) (2020-12-03T12:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。