論文の概要: RPT: Learning Point Set Representation for Siamese Visual Tracking
- arxiv url: http://arxiv.org/abs/2008.03467v2
- Date: Wed, 2 Sep 2020 01:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:06:43.207474
- Title: RPT: Learning Point Set Representation for Siamese Visual Tracking
- Title(参考訳): RPT:シームズ視覚追跡のための学習点集合表現
- Authors: Ziang Ma, Linyuan Wang, Haitao Zhang, Wei Lu and Jun Yin
- Abstract要約: 本稿では,より詳細な表現を代表点の集合として,対象状態を正確に推定する効率的な視覚追跡フレームワークを提案する。
提案手法は20FPS以上の動作中に新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.04182251944942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While remarkable progress has been made in robust visual tracking, accurate
target state estimation still remains a highly challenging problem. In this
paper, we argue that this issue is closely related to the prevalent bounding
box representation, which provides only a coarse spatial extent of object. Thus
an effcient visual tracking framework is proposed to accurately estimate the
target state with a finer representation as a set of representative points. The
point set is trained to indicate the semantically and geometrically significant
positions of target region, enabling more fine-grained localization and
modeling of object appearance. We further propose a multi-level aggregation
strategy to obtain detailed structure information by fusing hierarchical
convolution layers. Extensive experiments on several challenging benchmarks
including OTB2015, VOT2018, VOT2019 and GOT-10k demonstrate that our method
achieves new state-of-the-art performance while running at over 20 FPS.
- Abstract(参考訳): 堅牢な視覚追跡では目覚ましい進歩があったが、正確な目標状態推定は依然として非常に難しい問題である。
本稿では,物体の粗い空間範囲のみを提供する有界境界ボックス表現と,この問題が密接に関連していることを論じる。
そこで, 目標状態を正確に推定するために, より細かい表現を代表点の集合としてeffcient visual tracking frameworkを提案する。
点集合は、対象領域の意味的および幾何学的に重要な位置を示すように訓練され、より細かい局所化とオブジェクトの出現のモデリングを可能にする。
さらに,階層的畳み込み層を用いて詳細な構造情報を得るためのマルチレベルアグリゲーション戦略を提案する。
OTB2015, VOT2018, VOT2019, GOT-10k など,いくつかの挑戦的ベンチマークに対する大規模な実験により,20FPS以上で動作しながら,本手法が新たな最先端性能を実現することを示す。
関連論文リスト
- RTrack: Accelerating Convergence for Visual Object Tracking via
Pseudo-Boxes Exploration [3.29854706649876]
単一のオブジェクト追跡(SOT)は、ターゲットオブジェクトをバウンディングボックスとして表現することに大きく依存している。
本稿では,新しいオブジェクト表現ベースライントラッカーRTrackを提案する。
RTrackは自動的に点を配置して空間範囲を定義し、局所領域をハイライトする。
論文 参考訳(メタデータ) (2023-09-23T04:41:59Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z) - RPT++: Customized Feature Representation for Siamese Visual Tracking [16.305972000224358]
視覚的トラッキングの性能向上は,有意な領域から抽出された特徴が,より認識可能な視覚的パターンを提供するため,限られていると我々は主張する。
タスク固有の視覚パターンを捉えるために,極性プーリングと極性プーリングという2つの特徴抽出器を提案する。
本稿では,タスク固有の特徴表現の有効性を,最近の進行トラッカーRTPに組み込むことで示す。
論文 参考訳(メタデータ) (2021-10-23T10:58:57Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Structure-Consistent Weakly Supervised Salient Object Detection with
Local Saliency Coherence [14.79639149658596]
本論文では,スクリブルアノテーションによる弱監督オブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。
6つのベンチマークで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-08T12:49:40Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。