論文の概要: Hybrid Tracker with Pixel and Instance for Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2203.01217v2
- Date: Mon, 11 Dec 2023 08:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 03:45:27.206575
- Title: Hybrid Tracker with Pixel and Instance for Video Panoptic Segmentation
- Title(参考訳): ビデオパノプティカルセグメンテーションのためのPixelとインスタンスを用いたハイブリッドトラッカー
- Authors: Weicai Ye, Xinyue Lan, Ge Su, Hujun Bao, Zhaopeng Cui, Guofeng Zhang
- Abstract要約: ビデオパノプティカル係数(VPS)は、コヒーレントなパノプティカルセグメンテーションを生成し、ビデオフレーム全体の全ピクセルのアイデンティティを追跡することを目的としている。
単一トラッカーの限界を取り除くために,軽量かつ共同的な追跡モデルであるHybridTrackerを提案する。
総合的な実験により、HybridTrackerはCityscapes-VPSとVIPERデータセットの最先端メソッドよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 50.62685357414904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video Panoptic Segmentation (VPS) aims to generate coherent panoptic
segmentation and track the identities of all pixels across video frames.
Existing methods predominantly utilize the trained instance embedding to keep
the consistency of panoptic segmentation. However, they inevitably struggle to
cope with the challenges of small objects, similar appearance but inconsistent
identities, occlusion, and strong instance contour deformations. To address
these problems, we present HybridTracker, a lightweight and joint tracking
model attempting to eliminate the limitations of the single tracker.
HybridTracker performs pixel tracker and instance tracker in parallel to obtain
the association matrices, which are fused into a matching matrix. In the
instance tracker, we design a differentiable matching layer, ensuring the
stability of inter-frame matching. In the pixel tracker, we compute the dice
coefficient of the same instance of different frames given the estimated
optical flow, forming the Intersection Over Union (IoU) matrix. We additionally
propose mutual check and temporal consistency constraints during inference to
settle the occlusion and contour deformation challenges. Comprehensive
experiments show that HybridTracker achieves superior performance than
state-of-the-art methods on Cityscapes-VPS and VIPER datasets.
- Abstract(参考訳): ビデオパノプティクスセグメンテーション(VPS)は、コヒーレントなパノプティクスセグメンテーションを生成し、ビデオフレーム全体の全ピクセルのアイデンティティを追跡することを目的としている。
既存のメソッドは主にトレーニングされたインスタンスの埋め込みを利用して、panopticのセグメンテーションの一貫性を維持している。
しかし、それらは必然的に小さな物体の挑戦、外観は似ているが一貫性のないアイデンティティ、オクルージョン、そして強い例の輪郭変形に対処するのに苦労する。
これらの問題に対処するために,単一トラッカーの限界を解消しようとする軽量かつ共同追跡モデルであるHybridTrackerを提案する。
HybridTrackerは、一致行列に融合した関連行列を得るために、ピクセルトラッカーとインスタンストラッカーを並列に実行する。
インスタンストラッカでは、フレーム間マッチングの安定性を確保するために、微分可能なマッチング層を設計します。
ピクセルトラッカでは、推定された光学フローから異なるフレームの同じインスタンスのサイス係数を計算し、結合(iou)行列上の交叉を形成する。
さらに, 咬合・輪郭変形の課題を解決するために, 相互チェックと時間的一貫性の制約を提案する。
総合的な実験により、HybridTrackerはCityscapes-VPSとVIPERデータセットの最先端メソッドよりも優れたパフォーマンスを実現している。
関連論文リスト
- DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Spatial Feature Calibration and Temporal Fusion for Effective One-stage
Video Instance Segmentation [16.692219644392253]
本稿では,空間キャリブレーションと時間融合による一段階ビデオインスタンスセグメンテーションフレームワークであるstmaskを提案する。
YouTube-VIS検証セットの実験では、提案されたSTMaskとResNet-50/-101のバックボーンが33.5 %/36.8 %のマスクAPを取得し、ビデオインスタンスセグメンテーションでは28.6 / 23.4 FPSを達成した。
論文 参考訳(メタデータ) (2021-04-06T09:26:58Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Unsupervised Spatio-temporal Latent Feature Clustering for
Multiple-object Tracking and Segmentation [0.5591659577198183]
本稿では,時間的識別タスクを異種時間的クラスタリング問題として扱う戦略を提案する。
我々は、畳み込みと完全に接続されたオートエンコーダを用いて、セグメンテーションマスクと検出バウンディングボックスから識別特徴を学習する。
以上の結果から,本手法はいくつかの最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:47:56Z) - Tracking Road Users using Constraint Programming [79.32806233778511]
本稿では,マルチオブジェクトトラッキング(MOT)問題のトラッキング・バイ・検出パラダイムに見られるデータアソシエーションフェーズに対する制約プログラミング(CP)アプローチを提案する。
提案手法は車両追跡データを用いてテストし,UA-DETRACベンチマークの上位手法よりも優れた結果を得た。
論文 参考訳(メタデータ) (2020-03-10T00:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。