Fugu-MT 論文翻訳(概要): iKUN: Speak to Trackers without Retraining

論文の概要: iKUN: Speak to Trackers without Retraining

arxiv url: http://arxiv.org/abs/2312.16245v1
Date: Mon, 25 Dec 2023 11:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 20:32:18.393632
Title: iKUN: Speak to Trackers without Retraining
Title（参考訳）: iKUN:リトレーニングなしでトラッカーに話しかける
Authors: Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su
Abstract要約: 市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
参考スコア（独自算出の注目度）: 21.555469501789577
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Referring multi-object tracking (RMOT) aims to track multiple objects based on input textual descriptions. Previous works realize it by simply integrating an extra textual module into the multi-object tracker. However, they typically need to retrain the entire framework and have difficulties in optimization. In this work, we propose an insertable Knowledge Unification Network, termed iKUN, to enable communication with off-the-shelf trackers in a plug-and-play manner. Concretely, a knowledge unification module (KUM) is designed to adaptively extract visual features based on textual guidance. Meanwhile, to improve the localization accuracy, we present a neural version of Kalman filter (NKF) to dynamically adjust process noise and observation noise based on the current motion status. Moreover, to address the problem of open-set long-tail distribution of textual descriptions, a test-time similarity calibration method is proposed to refine the confidence score with pseudo frequency. Extensive experiments on Refer-KITTI dataset verify the effectiveness of our framework. Finally, to speed up the development of RMOT, we also contribute a more challenging dataset, Refer-Dance, by extending public DanceTrack dataset with motion and dressing descriptions. The code and dataset will be released in https://github.com/dyhBUPT/iKUN.
Abstract（参考訳）: マルチオブジェクト追跡(RMOT)は、入力されたテキスト記述に基づいて複数のオブジェクトを追跡することを目的としている。以前の作業では、余分なテキストモジュールをマルチオブジェクトトラッカに統合するだけでこれを実現する。しかし、通常はフレームワーク全体を再トレーニングし、最適化に支障をきたす必要がある。そこで本研究では,市販トラッカーとの通信をプラグイン・アンド・プレイ方式で行えるように,挿入可能な知識統一ネットワーク「ikun」を提案する。具体的には、知識統一モジュール(KUM)は、テキストガイダンスに基づいて視覚的特徴を適応的に抽出するように設計されている。一方、局所化精度を向上させるために、現在の動作状況に基づいてプロセスノイズと観測ノイズを動的に調整するKalman filter(NKF)のニューラルバージョンを提案する。さらに,テキスト記述の長区間分布の開放化の問題に対処するため,疑似周波数で信頼度を向上するテスト時間類似度校正法を提案する。 refer-kittiデータセットに関する広範な実験は、このフレームワークの有効性を検証する。最後に、RMOTの開発をスピードアップするために、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceも提供します。コードとデータセットはhttps://github.com/dyhBUPT/iKUNでリリースされる。

関連論文リスト

Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking [12.910676293067231]
ボックスアノテーションを不要にするために,textbftrackerというセルフスーパービジョントラッキングフレームワークを提案する。 GOT10K, LaSOT, TrackingNetデータセットのAUC(AO)スコアが25.3%, 20.4%, 14.8%向上した。
論文参考訳（メタデータ） (2025-07-29T09:04:03Z)
Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。 RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文参考訳（メタデータ） (2025-05-26T13:06:01Z)
CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-02T13:26:23Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
TQD-Track: Temporal Query Denoising for 3D Multi-Object Tracking [13.004539088540188]
既存のアプローチは、トラッキング・バイ・アテンション・パラダイムにクエリ・デノイングを統合している。提案するTQD-Trackは,MOTに適したTQD( Temporal Query Denoising)を提案する。提案したTQDを異なる追跡パラダイムに対して解析し,そのパラダイムを明示的な学習データアソシエーションモジュールを用いて探索する。
論文参考訳（メタデータ） (2025-04-04T08:18:48Z)
Less is More: Token Context-aware Learning for Object Tracking [20.222950380244377]
LMTrackはトークンコンテキスト対応トラッキングパイプラインである。効率的な視覚追跡のために、高品質な参照トークンを自動的に学習する。 GOT-10K、TrackingNet、LaSOTなどのトラッキングベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2025-01-01T07:05:31Z)
SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-09-17T14:36:58Z)
Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。 TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-07-19T07:48:45Z)
Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文参考訳（メタデータ） (2024-07-02T09:43:47Z)
Engineering an Efficient Object Tracker for Non-Linear Motion [0.0]
マルチオブジェクトトラッキングの目標は、シーン内のすべてのオブジェクトを検出し、追跡することである。このタスクは、動的および非線形な動きパターンを含むシナリオの場合、特に困難である。本稿では,これらのシナリオに特化して設計された新しい多目的トラッカーであるDeepMoveSORTを紹介する。
論文参考訳（メタデータ） (2024-06-30T15:50:54Z)
Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文参考訳（メタデータ） (2024-03-15T02:39:26Z)
LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。 LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文参考訳（メタデータ） (2024-01-03T18:57:27Z)
A Bayesian Detect to Track System for Robust Visual Object Tracking and Semi-Supervised Model Learning [1.7268829007643391]
ニューラルネットワークの出力によってパラメータ化されたベイズ追跡・検出フレームワークにおける副次的問題について述べる。本稿では,粒子フィルタを用いた物体状態推定のための近似サンプリングアルゴリズムを提案する。粒子フィルタ推論アルゴリズムを用いて,間欠的なラベル付きフレーム上でのトラッキングネットワークの学習に半教師付き学習アルゴリズムを用いる。
論文参考訳（メタデータ） (2022-05-05T00:18:57Z)
Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文参考訳（メタデータ） (2022-04-04T14:16:00Z)
Learning Dynamic Compact Memory Embedding for Deformable Visual Object Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。 DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文参考訳（メタデータ） (2021-11-23T03:07:12Z)
MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文参考訳（メタデータ） (2021-07-22T03:10:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。