論文の概要: Tracking Objects as Pixel-wise Distributions
- arxiv url: http://arxiv.org/abs/2207.05518v1
- Date: Tue, 12 Jul 2022 13:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 19:13:51.480308
- Title: Tracking Objects as Pixel-wise Distributions
- Title(参考訳): 画素分布としての物体追跡
- Authors: Zelin Zhao, Ze Wu, Yueqing Zhuang, Boxun Li, Jiaya Jia
- Abstract要約: マルチオブジェクトトラッキング(MOT)では、フレームを通じてオブジェクトを検出し、関連付ける必要がある。
対象の追跡を画素単位の分布として提案する。
我々は、このアイデアを変換器ベースのアーキテクチャであるP3AFormerでインスタンス化し、ピクセルワイドな伝搬、予測、関連付けを行う。
- 参考スコア(独自算出の注目度): 49.46919079329739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-object tracking (MOT) requires detecting and associating objects
through frames. Unlike tracking via detected bounding boxes or tracking objects
as points, we propose tracking objects as pixel-wise distributions. We
instantiate this idea on a transformer-based architecture, P3AFormer, with
pixel-wise propagation, prediction, and association. P3AFormer propagates
pixel-wise features guided by flow information to pass messages between frames.
Furthermore, P3AFormer adopts a meta-architecture to produce multi-scale object
feature maps. During inference, a pixel-wise association procedure is proposed
to recover object connections through frames based on the pixel-wise
prediction. P3AFormer yields 81.2\% in terms of MOTA on the MOT17 benchmark --
the first among all transformer networks to reach 80\% MOTA in literature.
P3AFormer also outperforms state-of-the-arts on the MOT20 and KITTI benchmarks.
- Abstract(参考訳): マルチオブジェクトトラッキング(MOT)では、フレームを通じてオブジェクトを検出し、関連付ける必要がある。
検出されたバウンディングボックスやオブジェクトをポイントとして追跡するのとは異なり、トラッキング対象をピクセル単位の分布として提案する。
我々は、このアイデアを変換器ベースのアーキテクチャであるP3AFormerでインスタンス化し、ピクセルワイドな伝搬、予測、関連付けを行う。
p3aformerは、フレーム間でメッセージを渡すためにフロー情報によって誘導されるピクセルごとに特徴を伝搬する。
さらに、p3aformerはメタアーキテクチャを採用し、マルチスケールオブジェクト特徴マップを作成する。
推定中、画素単位の予測に基づいてフレームを通してオブジェクト接続を回復するためにピクセル単位の関連手順が提案されている。
p3aformer は mot17 ベンチマークで mota の値として 81.2\% を得る。
P3AFormer は MOT20 と KITTI ベンチマークでも最先端のベンチマークを上回っている。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D
Temporal Object Detection [44.619039588252676]
本稿では,ポイントクラウドシーケンスを用いた3次元時間的物体検出のための,MPPNetと呼ばれる柔軟で高性能な3D検出フレームワークを提案する。
マルチフレーム特徴符号化のためのプロキシポイントと,より優れた検出を実現するためのインタラクションを備えた,新しい3階層フレームワークを提案する。
提案手法は,ショート(4フレームなど)およびロング(16フレームなど)のクラウドシーケンスに適用した場合,最先端の手法よりも大きなマージンを持つ。
論文 参考訳(メタデータ) (2022-05-12T09:38:42Z) - Global Tracking Transformers [76.58184022651596]
グローバル多目的追跡のためのトランスフォーマーに基づく新しいアーキテクチャを提案する。
コアコンポーネントはグローバルなトラッキングトランスフォーマーで、シーケンス内のすべてのフレームからオブジェクトを操作する。
われわれのフレームワークは、最先端の大語彙検出装置にシームレスに統合され、あらゆる物体を追跡できる。
論文 参考訳(メタデータ) (2022-03-24T17:58:04Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object
Detection with Transformers [78.48081972698888]
M3DeTRは、マルチスケールのフィーチャーピラミッドに基づいて、異なるポイントクラウド表現と異なる機能スケールを組み合わせたものです。
M3DeTRは、複数のポイントクラウド表現、機能スケール、およびトランスを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。
論文 参考訳(メタデータ) (2021-04-24T06:48:23Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - 3D Object Detection and Tracking Based on Streaming Data [9.085584050311178]
我々は、オンに基づいて3次元物体検出のためのデュアルウェイネットワークを構築し、時間情報で導かれる動きに基づくアルゴリズムにより、非キーフレームに予測を伝達する。
我々のフレームワークはフレーム・バイ・フレーム・パラダイムよりも大幅に改善されているだけでなく、KITTI Object Tracking Benchmarkで競合する結果が得られることが証明されている。
論文 参考訳(メタデータ) (2020-09-14T03:15:41Z) - End-to-End Multi-Object Tracking with Global Response Map [23.755882375664875]
画像シーケンス/映像を入力とし、学習対象の位置と追跡対象を直接出力する、完全にエンドツーエンドのアプローチを提案する。
具体的には,提案した多目的表現戦略により,グローバル応答マップをフレーム上で正確に生成することができる。
MOT16 と MOT17 のベンチマークによる実験結果から,提案したオンライントラッカーは,いくつかのトラッキング指標において最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-07-13T12:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。