論文の概要: iKUN: Speak to Trackers without Retraining
- arxiv url: http://arxiv.org/abs/2312.16245v2
- Date: Mon, 11 Mar 2024 07:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:51:32.799368
- Title: iKUN: Speak to Trackers without Retraining
- Title(参考訳): iKUN:リトレーニングなしでトラッカーに話しかける
- Authors: Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su
- Abstract要約: 市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
- 参考スコア(独自算出の注目度): 21.555469501789577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring multi-object tracking (RMOT) aims to track multiple objects based
on input textual descriptions. Previous works realize it by simply integrating
an extra textual module into the multi-object tracker. However, they typically
need to retrain the entire framework and have difficulties in optimization. In
this work, we propose an insertable Knowledge Unification Network, termed iKUN,
to enable communication with off-the-shelf trackers in a plug-and-play manner.
Concretely, a knowledge unification module (KUM) is designed to adaptively
extract visual features based on textual guidance. Meanwhile, to improve the
localization accuracy, we present a neural version of Kalman filter (NKF) to
dynamically adjust process noise and observation noise based on the current
motion status. Moreover, to address the problem of open-set long-tail
distribution of textual descriptions, a test-time similarity calibration method
is proposed to refine the confidence score with pseudo frequency. Extensive
experiments on Refer-KITTI dataset verify the effectiveness of our framework.
Finally, to speed up the development of RMOT, we also contribute a more
challenging dataset, Refer-Dance, by extending public DanceTrack dataset with
motion and dressing descriptions. The codes and dataset are available at
https://github.com/dyhBUPT/iKUN.
- Abstract(参考訳): マルチオブジェクト追跡(RMOT)は、入力されたテキスト記述に基づいて複数のオブジェクトを追跡することを目的としている。
以前の作業では、余分なテキストモジュールをマルチオブジェクトトラッカに統合するだけでこれを実現する。
しかし、通常はフレームワーク全体を再トレーニングし、最適化に支障をきたす必要がある。
そこで本研究では,市販トラッカーとの通信をプラグイン・アンド・プレイ方式で行えるように,挿入可能な知識統一ネットワーク「ikun」を提案する。
具体的には、知識統一モジュール(KUM)は、テキストガイダンスに基づいて視覚的特徴を適応的に抽出するように設計されている。
一方、局所化精度を向上させるために、現在の動作状況に基づいてプロセスノイズと観測ノイズを動的に調整するKalman filter(NKF)のニューラルバージョンを提案する。
さらに,テキスト記述の長区間分布の開放化の問題に対処するため,疑似周波数で信頼度を向上するテスト時間類似度校正法を提案する。
refer-kittiデータセットに関する広範な実験は、このフレームワークの有効性を検証する。
最後に、RMOTの開発をスピードアップするために、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceも提供します。
コードとデータセットはhttps://github.com/dyhBUPT/iKUNで公開されている。
関連論文リスト
- SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Engineering an Efficient Object Tracker for Non-Linear Motion [0.0]
マルチオブジェクトトラッキングの目標は、シーン内のすべてのオブジェクトを検出し、追跡することである。
このタスクは、動的および非線形な動きパターンを含むシナリオの場合、特に困難である。
本稿では,これらのシナリオに特化して設計された新しい多目的トラッカーであるDeepMoveSORTを紹介する。
論文 参考訳(メタデータ) (2024-06-30T15:50:54Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - A Bayesian Detect to Track System for Robust Visual Object Tracking and
Semi-Supervised Model Learning [1.7268829007643391]
ニューラルネットワークの出力によってパラメータ化されたベイズ追跡・検出フレームワークにおける副次的問題について述べる。
本稿では,粒子フィルタを用いた物体状態推定のための近似サンプリングアルゴリズムを提案する。
粒子フィルタ推論アルゴリズムを用いて,間欠的なラベル付きフレーム上でのトラッキングネットワークの学習に半教師付き学習アルゴリズムを用いる。
論文 参考訳(メタデータ) (2022-05-05T00:18:57Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。