論文の概要: Towards More Flexible and Accurate Object Tracking with Natural
Language: Algorithms and Benchmark
- arxiv url: http://arxiv.org/abs/2103.16746v1
- Date: Wed, 31 Mar 2021 00:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:47:46.724628
- Title: Towards More Flexible and Accurate Object Tracking with Natural
Language: Algorithms and Benchmark
- Title(参考訳): 自然言語によるより柔軟で正確なオブジェクト追跡:アルゴリズムとベンチマーク
- Authors: Xiao Wang, Xiujun Shu, Zhipeng Zhang, Bo Jiang, Yaowei Wang, Yonghong
Tian, Feng Wu
- Abstract要約: 自然言語の仕様による追跡は、その言語記述に基づいてビデオシーケンス内のターゲットオブジェクトを見つけることを目的とした新しい上昇研究トピックです。
大規模データセットを含む,言語別追跡に特化した新たなベンチマークを提案する。
また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。
- 参考スコア(独自算出の注目度): 46.691218019908746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking by natural language specification is a new rising research topic
that aims at locating the target object in the video sequence based on its
language description. Compared with traditional bounding box (BBox) based
tracking, this setting guides object tracking with high-level semantic
information, addresses the ambiguity of BBox, and links local and global search
organically together. Those benefits may bring more flexible, robust and
accurate tracking performance in practical scenarios. However, existing natural
language initialized trackers are developed and compared on benchmark datasets
proposed for tracking-by-BBox, which can't reflect the true power of
tracking-by-language. In this work, we propose a new benchmark specifically
dedicated to the tracking-by-language, including a large scale dataset, strong
and diverse baseline methods. Specifically, we collect 2k video sequences
(contains a total of 1,244,340 frames, 663 words) and split 1300/700 for the
train/testing respectively. We densely annotate one sentence in English and
corresponding bounding boxes of the target object for each video. We also
introduce two new challenges into TNL2K for the object tracking task, i.e.,
adversarial samples and modality switch. A strong baseline method based on an
adaptive local-global-search scheme is proposed for future works to compare. We
believe this benchmark will greatly boost related researches on natural
language guided tracking.
- Abstract(参考訳): 自然言語仕様による追跡は、その言語記述に基づいてビデオシーケンス内の対象オブジェクトを特定することを目的とした、新たな研究テーマである。
従来のバウンディングボックス(BBox)ベースのトラッキングと比較して、この設定はオブジェクト追跡を高レベルなセマンティック情報でガイドし、BBoxのあいまいさに対処し、局所検索とグローバル検索を有機的にリンクする。
これらの利点は、実用的なシナリオにおいて、より柔軟で堅牢で正確な追跡性能をもたらす可能性がある。
しかし、既存の自然言語初期化トラッカーは、トラッキング・バイ・BBoxのために提案されたベンチマークデータセットと比較して開発され、比較される。
本研究では,大規模データセット,強力で多様なベースライン手法など,言語ごとのトラッキングに特化した新しいベンチマークを提案する。
具体的には、2kビデオシーケンス(合計1,244,340フレーム、663ワード)を収集し、1300/700を列車/テスト用に分割する。
1つの文を英語で密に注釈し、各ビデオのターゲットオブジェクトのバウンディングボックスに対応する。
また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。
今後の研究のために,適応型局所グローバル検索方式に基づく強力なベースライン手法を提案する。
このベンチマークは、自然言語ガイドトラッキングに関する関連する研究を大きく促進すると思います。
関連論文リスト
- DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM [23.551036494221222]
我々は,VLTとSOTの5つのベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。
セマンティック情報の範囲と密度を考慮して、ベンチマークで4つのテキストを提供する。
我々はDTVLTの総合的な実験分析を行い、多種多様なテキストが追跡性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:57:07Z) - Bootstrapping Referring Multi-Object Tracking [14.46285727127232]
マルチオブジェクト追跡(RMOT)の参照は、自然言語表現で表される人間の指示に従って複数のオブジェクトを検出し、追跡することを目的としている。
我々のキーとなる考え方は、差別的な言語単語を導入することで、多目的追跡のタスクをブートストラップすることである。
論文 参考訳(メタデータ) (2024-06-07T16:02:10Z) - Unifying Visual and Vision-Language Tracking via Contrastive Learning [34.49865598433915]
単一のオブジェクト追跡は、異なるモーダル参照に従って、ビデオシーケンス内の対象オブジェクトを特定することを目的としている。
異なるモダリティ間のギャップのため、既存のトラッカーのほとんどは、これらの参照設定の単一または部分のために設計されている。
3つの参照設定を同時に処理できるUVLTrackという統合トラッカーを提案する。
論文 参考訳(メタデータ) (2024-01-20T13:20:54Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Tracking by Joint Local and Global Search: A Target-aware Attention
based Approach [63.50045332644818]
本研究では、ロバストな追跡のための局所的・グローバルな共同探索を行うための新たな目標認識型アテンション機構(TANet)を提案する。
具体的には、ターゲットオブジェクトパッチと連続ビデオフレームの特徴を抽出し、それらをデコーダネットワークに追従して、ターゲットを意識したグローバルアテンションマップを生成する。
追跡手順において、ロバストな追跡のための候補探索領域を探索することにより、ターゲット認識の注意を複数のトラッカーと統合する。
論文 参考訳(メタデータ) (2021-06-09T06:54:15Z) - LaSOT: A High-quality Large-scale Single Object Tracking Benchmark [67.96196486540497]
高品質な大規模オブジェクト追跡ベンチマークであるLaSOTを提案する。
LaSOTには85のオブジェクトクラスがあり、合計で1,550のフレームが387万フレーム以上ある。
それぞれのビデオフレームは、慎重に手動でバウンディングボックスでアノテートされます。これにより、LaSOTは、私たちの知る限り、最も高密度にアノテートされたトラッキングベンチマークになります。
論文 参考訳(メタデータ) (2020-09-08T00:31:56Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。