論文の概要: MOT FCG++: Enhanced Representation of Spatio-temporal Motion and Appearance Features
- arxiv url: http://arxiv.org/abs/2411.10028v2
- Date: Thu, 21 Nov 2024 07:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 11:59:10.104674
- Title: MOT FCG++: Enhanced Representation of Spatio-temporal Motion and Appearance Features
- Title(参考訳): MOT FCG++:時空間運動と出現特徴の強調表現
- Authors: Yanzhao Fang,
- Abstract要約: 本稿では, 階層クラスタリング手法MOT FCGの改良により, 外観と時空間の動作特徴を表現できる新しい手法を提案する。
まず, 物体の位置と形状の関係をより正確に表現した, 対角変調GIoUを提案する。
外観特徴に対して、信頼情報を含む動的外観表現を用い、軌道の外観特徴をより堅牢でグローバルにすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The goal of multi-object tracking (MOT) is to detect and track all objects in a scene across frames, while maintaining a unique identity for each object. Most existing methods rely on the spatial-temporal motion features and appearance embedding features of the detected objects in consecutive frames. Effectively and robustly representing the spatial and appearance features of long trajectories has become a critical factor affecting the performance of MOT. We propose a novel approach for appearance and spatial-temporal motion feature representation, improving upon the hierarchical clustering association method MOT FCG. For spatialtemporal motion features, we first propose Diagonal Modulated GIoU, which more accurately represents the relationship between the position and shape of the objects. Second, Mean Constant Velocity Modeling is proposed to reduce the effect of observation noise on target motion state estimation. For appearance features, we utilize a dynamic appearance representation that incorporates confidence information, enabling the trajectory appearance features to be more robust and global. Based on the baseline model MOT FCG, we have realized further improvements in the performance of all. we achieved 63.1 HOTA, 76.9 MOTA and 78.2 IDF1 on the MOT17 test set, and also achieved competitive performance on the MOT20 and DanceTrack sets.
- Abstract(参考訳): マルチオブジェクト追跡(MOT)の目標は、各オブジェクトのユニークなアイデンティティを維持しながら、フレーム間のシーン内のすべてのオブジェクトを検出し、追跡することである。
既存の手法のほとんどは、連続したフレーム内で検出された物体の空間的時間的動きの特徴と外観的埋め込みの特徴に依存している。
長軌跡の空間的特徴と外観的特徴を効果的かつ頑健に表現することは,MOTの性能に重要な要因となっている。
階層的クラスタリングアソシエーション法MOT FCGを改良した外観・時空間運動特徴表現のための新しい手法を提案する。
まず, 物体の位置と形状の関係をより正確に表現した, 対角変調GIoUを提案する。
第二に、目標運動状態推定に対する観測雑音の影響を低減するために平均定速度モデルを提案する。
外観特徴に対して、信頼情報を含む動的外観表現を用い、軌跡の外観特徴をより堅牢でグローバルにすることができる。
ベースラインモデルMOT FCGに基づいて, 性能のさらなる向上を実現した。
私たちはMOT17テストセットで63.1 HOTA、76.9 MOTA、78.2 IDF1を達成しました。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Rt-Track: Robust Tricks for Multi-Pedestrian Tracking [4.271127739716044]
動き情報のモデリングを改善するために,スムーズな軌道予測(STP-DC)のための新しい方向整合性手法を提案する。
また、外観モデルのモデリングを強化するために、HG-FEN(Hyper-grain Feature Embedding Network)を提案する。
そこで我々は,MOTにおける最先端性能を実現するため,Rtトラックと呼ばれるロバストトラッカーを提案し,様々なトリックとテクニックを取り入れた。
論文 参考訳(メタデータ) (2023-03-16T22:08:29Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。