論文の概要: Unifying Visual and Vision-Language Tracking via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2401.11228v1
- Date: Sat, 20 Jan 2024 13:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:34:04.663148
- Title: Unifying Visual and Vision-Language Tracking via Contrastive Learning
- Title(参考訳): コントラスト学習による視覚・視線追跡の統一
- Authors: Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang, Jinpeng Zhang,
Mengxue Kang
- Abstract要約: 単一のオブジェクト追跡は、異なるモーダル参照に従って、ビデオシーケンス内の対象オブジェクトを特定することを目的としている。
異なるモダリティ間のギャップのため、既存のトラッカーのほとんどは、これらの参照設定の単一または部分のために設計されている。
3つの参照設定を同時に処理できるUVLTrackという統合トラッカーを提案する。
- 参考スコア(独自算出の注目度): 34.49865598433915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single object tracking aims to locate the target object in a video sequence
according to the state specified by different modal references, including the
initial bounding box (BBOX), natural language (NL), or both (NL+BBOX). Due to
the gap between different modalities, most existing trackers are designed for
single or partial of these reference settings and overspecialize on the
specific modality. Differently, we present a unified tracker called UVLTrack,
which can simultaneously handle all three reference settings (BBOX, NL,
NL+BBOX) with the same parameters. The proposed UVLTrack enjoys several merits.
First, we design a modality-unified feature extractor for joint visual and
language feature learning and propose a multi-modal contrastive loss to align
the visual and language features into a unified semantic space. Second, a
modality-adaptive box head is proposed, which makes full use of the target
reference to mine ever-changing scenario features dynamically from video
contexts and distinguish the target in a contrastive way, enabling robust
performance in different reference settings. Extensive experimental results
demonstrate that UVLTrack achieves promising performance on seven visual
tracking datasets, three vision-language tracking datasets, and three visual
grounding datasets. Codes and models will be open-sourced at
https://github.com/OpenSpaceAI/UVLTrack.
- Abstract(参考訳): 単一オブジェクト追跡は、初期バウンディングボックス(BBOX)、自然言語(NL)、あるいはその両方(NL+BBOX)を含む、異なるモード参照によって指定された状態に従って、対象オブジェクトをビデオシーケンス内で特定することを目的としている。
異なるモダリティ間のギャップのため、既存のトラッカーのほとんどは、これらの参照設定の単一または一部を対象として設計され、特定のモダリティを過小評価する。
異なることに、同じパラメータで3つの参照設定(BBOX, NL, NL+BBOX)を同時に処理できるUVLTrackと呼ばれる統一トラッカーを提案する。
提案されたUVLTrackにはいくつかのメリットがある。
まず,共同視覚・言語特徴学習のためのモダリティ統一特徴抽出器を設計し,視覚・言語特徴を統一意味空間に整合させるマルチモーダルコントラスト損失を提案する。
第2に、ビデオコンテキストと動的に変化するシナリオの特徴をターゲット参照にフル活用し、コントラスト的な方法でターゲットを識別し、異なる参照設定で堅牢なパフォーマンスを実現するモダリティ適応型ボックスヘッドを提案する。
UVLTrackは、7つの視覚的追跡データセット、3つの視覚言語追跡データセット、3つの視覚的グラウンドデータセットで有望なパフォーマンスを達成した。
コードとモデルはhttps://github.com/OpenSpaceAI/UVLTrack.comでオープンソース化される。
関連論文リスト
- Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in
Bird's-Eye View [59.283604507093116]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。
我々は,Bird's-Eye View(BEV)におけるトラッキングを行う,シンプルだが効果的なベースラインであるBEVTrackを提案する。
3つの大規模データセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Type-to-Track: Retrieve Any Object via Prompt-based Tracking [34.859061177766016]
本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-22T21:25:27Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Towards More Flexible and Accurate Object Tracking with Natural
Language: Algorithms and Benchmark [46.691218019908746]
自然言語の仕様による追跡は、その言語記述に基づいてビデオシーケンス内のターゲットオブジェクトを見つけることを目的とした新しい上昇研究トピックです。
大規模データセットを含む,言語別追跡に特化した新たなベンチマークを提案する。
また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。
論文 参考訳(メタデータ) (2021-03-31T00:57:32Z) - Siamese Tracking with Lingual Object Constraints [28.04334832366449]
本稿では、追加の言語制約を受ける視覚オブジェクトの追跡について検討する。
Liなどとは違って、トラッキングに新たな言語制約を課し、トラッキングの新しいアプリケーションを可能にします。
本手法は,制約の妥当性に基づいて,動画の選択的圧縮を可能にする。
論文 参考訳(メタデータ) (2020-11-23T20:55:08Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。