論文の概要: OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer
- arxiv url: http://arxiv.org/abs/2503.10616v1
- Date: Thu, 13 Mar 2025 17:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:27.443586
- Title: OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer
- Title(参考訳): OVTR:Open-Vocabulary Multi Object Tracking with Transformer
- Authors: Jinyang Li, En Yu, Sijia Chen, Wenbing Tao,
- Abstract要約: Open-vocabulary Multiple Object Trackingは、トレーニング中にトラッカーを未知のカテゴリに一般化することを目的としている。
OVTRは、動き、外観、カテゴリーを同時にモデル化する最初のエンドツーエンドのオープン語彙トラッカーである。
- 参考スコア(独自算出の注目度): 25.963586473288764
- License:
- Abstract: Open-vocabulary multiple object tracking aims to generalize trackers to unseen categories during training, enabling their application across a variety of real-world scenarios. However, the existing open-vocabulary tracker is constrained by its framework structure, isolated frame-level perception, and insufficient modal interactions, which hinder its performance in open-vocabulary classification and tracking. In this paper, we propose OVTR (End-to-End Open-Vocabulary Multiple Object Tracking with TRansformer), the first end-to-end open-vocabulary tracker that models motion, appearance, and category simultaneously. To achieve stable classification and continuous tracking, we design the CIP (Category Information Propagation) strategy, which establishes multiple high-level category information priors for subsequent frames. Additionally, we introduce a dual-branch structure for generalization capability and deep multimodal interaction, and incorporate protective strategies in the decoder to enhance performance. Experimental results show that our method surpasses previous trackers on the open-vocabulary MOT benchmark while also achieving faster inference speeds and significantly reducing preprocessing requirements. Moreover, the experiment transferring the model to another dataset demonstrates its strong adaptability. Models and code are released at https://github.com/jinyanglii/OVTR.
- Abstract(参考訳): オープンボキャブラリ 複数オブジェクトトラッキングは、トレーニング中にトレーサを見えないカテゴリに一般化することを目的としており、様々な現実世界のシナリオにまたがるアプリケーションを可能にする。
しかし、既存のオープン語彙トラッカーは、そのフレームワーク構造、フレームレベルの分離された認識、モーダル相互作用の不十分さによって制約されており、オープン語彙分類とトラッキングのパフォーマンスを妨げている。
本稿では,動作,外観,カテゴリを同時にモデル化する最初のエンドツーエンドオープン語彙トラッカーであるOVTR(End-to-End Open-Vocabulary Multiple Object Tracking with TRansformer)を提案する。
安定した分類と連続的な追跡を実現するため,CIP (Category Information Propagation) 戦略を設計する。
さらに、一般化機能と深層マルチモーダル相互作用のためのデュアルブランチ構造を導入し、デコーダに保護戦略を組み込んで性能を向上させる。
実験の結果,提案手法はオープンボキャブラリMOTベンチマークで過去のトラッカーを上回り,高速な推論速度を実現し,事前処理の要求を大幅に低減することがわかった。
さらに、モデルを他のデータセットに転送する実験は、その強い適応性を示す。
モデルとコードはhttps://github.com/jinyanglii/OVTRで公開されている。
関連論文リスト
- IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文 参考訳(メタデータ) (2024-10-30T14:24:56Z) - Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - OpenVIS: Open-vocabulary Video Instance Segmentation [24.860711503327323]
OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
InstFormerは、限られたカテゴリデータによる軽量な微調整により、強力なオープン語彙機能を実現するフレームワークである。
論文 参考訳(メタデータ) (2023-05-26T11:25:59Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video
Relation Detection [67.64272825961395]
Open-VidVRD(Open-VidVRD)のためのRelation Prompt(RePro)を提案する。
ReProは、Open-VidVRDの2つの技術的課題に対処する: 1) プロンプトトークンは、主題と対象の2つの異なる意味的役割を尊重し、2) チューニングは、対象物の構成の様々な述語時間運動パターンを考慮すべきである。
論文 参考訳(メタデータ) (2023-02-01T06:20:54Z) - Backbone is All Your Need: A Simplified Architecture for Visual Object
Tracking [69.08903927311283]
既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャの選択に事前知識が必要である。
本稿では,コンバータバックボーンを用いた簡易なトラッキングアーキテクチャ(SimTrack)を提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T12:20:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。