論文の概要: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2510.09878v1
- Date: Fri, 10 Oct 2025 21:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.662793
- Title: Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking
- Title(参考訳): 複数物体追跡のための高速自己監督深度とマスク認識アソシエーション
- Authors: Milad Khanchi, Maria Amer, Charalambos Poullis,
- Abstract要約: マルチオブジェクト追跡 (MOT) 法は、しばしば関連付けにIntersection-over-Union (IoU) を用いる。
本研究では,物体の形状を計測するためにセグメンテーションマスクを用いるが,セグメンテーションIoUは計算しない。
当社のMOT法は,IoUを計算せずに自己教師付きエンコーダを用いてセグメンテーションマスクを精製する最初の方法である。
- 参考スコア(独自算出の注目度): 2.676349883103404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-object tracking (MOT) methods often rely on Intersection-over-Union (IoU) for association. However, this becomes unreliable when objects are similar or occluded. Also, computing IoU for segmentation masks is computationally expensive. In this work, we use segmentation masks to capture object shapes, but we do not compute segmentation IoU. Instead, we fuse depth and mask features and pass them through a compact encoder trained self-supervised. This encoder produces stable object representations, which we use as an additional similarity cue alongside bounding box IoU and re-identification features for matching. We obtain depth maps from a zero-shot depth estimator and object masks from a promptable visual segmentation model to obtain fine-grained spatial cues. Our MOT method is the first to use the self-supervised encoder to refine segmentation masks without computing masks IoU. MOT can be divided into joint detection-ReID (JDR) and tracking-by-detection (TBD) models. The latter are computationally more efficient. Experiments of our TBD method on challenging benchmarks with non-linear motion, occlusion, and crowded scenes, such as SportsMOT and DanceTrack, show that our method outperforms the TBD state-of-the-art on most metrics, while achieving competitive performance on simpler benchmarks with linear motion, such as MOT17.
- Abstract(参考訳): マルチオブジェクト追跡 (MOT) 法は、しばしば関連付けにIntersection-over-Union (IoU) を用いる。
しかし、オブジェクトが似ているか、あるいは隠されている場合、これは信頼できない。
また、セグメンテーションマスクのIoU計算には計算コストがかかる。
本研究では,物体形状を捉えるためにセグメンテーションマスクを用いるが,セグメンテーションIoUは計算しない。
代わりに、深度とマスクの機能を融合して、訓練済みのコンパクトエンコーダに渡します。
このエンコーダは安定なオブジェクト表現を生成するが、これはバウンディングボックスIoUおよびマッチングのための再識別機能と並行して追加の類似性キューとして使用される。
我々は、ゼロショット深度推定器から深度マップと、プロンプト可能なビジュアルセグメンテーションモデルからオブジェクトマスクを取得し、きめ細かい空間的手がかりを得る。
当社のMOT法は,IoUを計算せずに自己教師付きエンコーダを用いてセグメンテーションマスクを精製する最初の方法である。
MOTはジョイント・ディテクト・リID(JDR)とトラッキング・バイ・ディテクト・モデル(TBD)に分けられる。
後者は計算効率が良い。
本手法は,非直線運動,オクルージョン,SportsMOTやDanceTrackのような混在するシーンのベンチマークに挑戦するTBD手法の実験により,MOT17のようなより単純なベンチマーク上での競合性能を達成しつつ,ほとんどの指標においてTBDの最先端性能を上回っていることを示す。
関連論文リスト
- PD-SORT: Occlusion-Robust Multi-Object Tracking Using Pseudo-Depth Cues [8.642829333393442]
マルチオブジェクトトラッキング (MOT) は、ビデオ処理技術において注目される話題であり、消費者電子製品において重要な応用価値を持つ。
現在、トラッキング・バイ・ディテクト(TBD)がMOTの主要なパラダイムであり、フレーム単位でターゲット検出とアソシエーション・フレームを実行する。
本研究では,Pseudo-Depth SORT (PD-SORT) を提案する。
論文 参考訳(メタデータ) (2025-01-20T05:50:39Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - SparseTrack: Multi-Object Tracking by Performing Scene Decomposition
based on Pseudo-Depth [84.64121608109087]
2次元画像から目標の相対的な深さを求めるための擬似深度推定法を提案する。
次に,得られた深度情報を用いて,高密度なターゲットセットを複数のスパースなターゲットサブセットに変換するディープカスケードマッチング(DCM)アルゴリズムを設計する。
擬似深度法とDCM戦略をデータアソシエーションプロセスに統合することにより、SparseTrackと呼ばれる新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-06-08T14:36:10Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z) - IA-MOT: Instance-Aware Multi-Object Tracking with Motion Consistency [40.354708148590696]
IA-MOT(Instance-Aware MOT)は、静止カメラまたは移動カメラで複数の物体を追跡できる。
提案手法は,CVPR 2020ワークショップにおけるBMTTチャレンジのトラック3で優勝した。
論文 参考訳(メタデータ) (2020-06-24T03:53:36Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。