論文の概要: Visual Tracking by TridentAlign and Context Embedding
- arxiv url: http://arxiv.org/abs/2007.06887v1
- Date: Tue, 14 Jul 2020 08:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:41:29.744291
- Title: Visual Tracking by TridentAlign and Context Embedding
- Title(参考訳): TridentAlignとコンテキスト埋め込みによる視覚追跡
- Authors: Janghoon Choi, Junseok Kwon, Kyoung Mu Lee
- Abstract要約: 本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
- 参考スコア(独自算出の注目度): 71.60159881028432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Siamese network-based visual tracking methods have enabled
high performance on numerous tracking benchmarks. However, extensive scale
variations of the target object and distractor objects with similar categories
have consistently posed challenges in visual tracking. To address these
persisting issues, we propose novel TridentAlign and context embedding modules
for Siamese network-based visual tracking methods. The TridentAlign module
facilitates adaptability to extensive scale variations and large deformations
of the target, where it pools the feature representation of the target object
into multiple spatial dimensions to form a feature pyramid, which is then
utilized in the region proposal stage. Meanwhile, context embedding module aims
to discriminate the target from distractor objects by accounting for the global
context information among objects. The context embedding module extracts and
embeds the global context information of a given frame into a local feature
representation such that the information can be utilized in the final
classification stage. Experimental results obtained on multiple benchmark
datasets show that the performance of the proposed tracker is comparable to
that of state-of-the-art trackers, while the proposed tracker runs at real-time
speed.
- Abstract(参考訳): シームズネットワークに基づく視覚追跡手法の最近の進歩は、多数のトラッキングベンチマークで高いパフォーマンスを実現している。
しかし、ターゲットオブジェクトと類似のカテゴリを持つイントラクタオブジェクトの広範なスケールのバリエーションは、常に視覚的トラッキングの課題を提起している。
このような持続的な問題に対処するために,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
tridentalignモジュールは、ターゲットの広範囲なバリエーションや大きな変形への適応性を促進し、対象オブジェクトの特徴表現を複数の空間次元にプールし、特徴ピラミッドを形成する。
一方、コンテキスト埋め込みモジュールは、オブジェクト間のグローバルなコンテキスト情報を考慮し、ターゲットを邪魔対象から識別することを目的としている。
コンテキスト埋め込みモジュールは、所定のフレームのグローバルコンテキスト情報を、最終分類段階で活用できるように、ローカルな特徴表現に抽出して埋め込みます。
複数のベンチマークデータセットから得られた実験結果から,提案トラッカーの性能は最先端トラッカーと同等であり,提案トラッカーはリアルタイムに動作していることがわかった。
関連論文リスト
- Multi-Object Tracking by Hierarchical Visual Representations [40.521291165765696]
マルチオブジェクト追跡のための新しい視覚的階層表現パラダイムを提案する。
対象の合成視覚領域に参画し、背景の文脈情報と対比することにより、対象間の識別がより効果的である。
論文 参考訳(メタデータ) (2024-02-24T20:10:44Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z) - e-TLD: Event-based Framework for Dynamic Object Tracking [23.026432675020683]
本稿では,一般的な追跡条件下での移動イベントカメラを用いた長期オブジェクト追跡フレームワークを提案する。
このフレームワークは、オンライン学習を伴うオブジェクトの識別表現を使用し、ビューのフィールドに戻るとオブジェクトを検出し、追跡する。
論文 参考訳(メタデータ) (2020-09-02T07:08:56Z) - RPT: Learning Point Set Representation for Siamese Visual Tracking [15.04182251944942]
本稿では,より詳細な表現を代表点の集合として,対象状態を正確に推定する効率的な視覚追跡フレームワークを提案する。
提案手法は20FPS以上の動作中に新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-08-08T07:42:58Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Applying r-spatiogram in object tracking for occlusion handling [16.36552899280708]
映像追跡の目的は、動画シーケンス内の移動対象を正確に特定し、そのシーケンスの特徴空間内の非ターゲットから目標を識別することである。
本稿では,オブジェクトモデリング,オブジェクト検出とローカライゼーション,モデル更新という,参照モデルの3つの主要コンポーネントで構成される多くのトラッカーの基本概念を用いる。
論文 参考訳(メタデータ) (2020-03-18T02:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。