論文の概要: Learning Target-aware Representation for Visual Tracking via Informative
Interactions
- arxiv url: http://arxiv.org/abs/2201.02526v1
- Date: Fri, 7 Jan 2022 16:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 14:46:12.262411
- Title: Learning Target-aware Representation for Visual Tracking via Informative
Interactions
- Title(参考訳): 情報インタラクションによる視覚追跡のための目標認識表現の学習
- Authors: Mingzhe Guo, Zhipeng Zhang, Heng Fan, Liping Jing, Yilin Lyu, Bing Li,
Weiming Hu
- Abstract要約: トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
- 参考スコア(独自算出の注目度): 49.552877881662475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel backbone architecture to improve target-perception
ability of feature representation for tracking. Specifically, having observed
that de facto frameworks perform feature matching simply using the outputs from
backbone for target localization, there is no direct feedback from the matching
module to the backbone network, especially the shallow layers. More concretely,
only the matching module can directly access the target information (in the
reference frame), while the representation learning of candidate frame is blind
to the reference target. As a consequence, the accumulation effect of
target-irrelevant interference in the shallow stages may degrade the feature
quality of deeper layers. In this paper, we approach the problem from a
different angle by conducting multiple branch-wise interactions inside the
Siamese-like backbone networks (InBN). At the core of InBN is a general
interaction modeler (GIM) that injects the prior knowledge of reference image
to different stages of the backbone network, leading to better
target-perception and robust distractor-resistance of candidate feature
representation with negligible computation cost. The proposed GIM module and
InBN mechanism are general and applicable to different backbone types including
CNN and Transformer for improvements, as evidenced by our extensive experiments
on multiple benchmarks. In particular, the CNN version (based on SiamCAR)
improves the baseline with 3.2/6.9 absolute gains of SUC on LaSOT/TNL2K,
respectively. The Transformer version obtains SUC scores of 65.7/52.0 on
LaSOT/TNL2K, which are on par with recent state of the arts. Code and models
will be released.
- Abstract(参考訳): トラッキングのための特徴表現のターゲット認識能力を向上する新しいバックボーンアーキテクチャを提案する。
具体的には、デファクトフレームワークがbackboneからの出力を単にターゲットローカライズに使用するだけで機能マッチングを行うのを観察したため、マッチングモジュールからbackboneネットワーク、特に浅い層への直接的なフィードバックは存在しません。
より具体的には、マッチングモジュールのみが(参照フレーム内で)ターゲット情報に直接アクセスでき、一方、候補フレームの表現学習は参照ターゲットに対して盲目である。
その結果、浅い段階における目標非関連干渉の蓄積効果は、深い層の特徴品質を低下させる可能性がある。
本稿では,シームズ様バックボーンネットワーク(InBN)内で複数の分岐ワイド相互作用を行うことにより,異なる角度から問題にアプローチする。
InBNのコアとなる汎用相互作用モデリング(GIM)は、バックボーンネットワークの異なる段階に参照画像の事前の知識を注入し、予測された特徴表現を無視可能な計算コストでより優れた目標認識と堅牢なトラクタ抵抗をもたらす。
提案するgimモジュールとinbn機構は,cnnやtransformerなど,さまざまなバックボーンタイプに対して汎用的かつ適用可能な改良手法である。
特にcnnバージョン(siamcarベース)は、lasot/tnl2kでのsucの絶対値の3.2/6.9でベースラインを改善している。
Transformer版は、LaSOT/TNL2Kで65.7/52.0のSUCスコアを取得する。
コードとモデルはリリースされる。
関連論文リスト
- Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。
提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文 参考訳(メタデータ) (2022-10-16T12:31:59Z) - NL-FCOS: Improving FCOS through Non-Local Modules for Object Detection [0.0]
FCOSヘッドと組み合わせた非局所モジュール(NL-FCOS)は実用的で効率的であることを示す。
衣服検出と手書き量認識問題における最先端性能を確立した。
論文 参考訳(メタデータ) (2022-03-29T15:00:14Z) - Backbone is All Your Need: A Simplified Architecture for Visual Object
Tracking [69.08903927311283]
既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャの選択に事前知識が必要である。
本稿では,コンバータバックボーンを用いた簡易なトラッキングアーキテクチャ(SimTrack)を提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T12:20:58Z) - Recurrence along Depth: Deep Convolutional Neural Networks with
Recurrent Layer Aggregation [5.71305698739856]
本稿では,従来のレイヤからの情報を再利用して,現在のレイヤの特徴をよりよく抽出する方法を説明するために,レイヤアグリゲーションの概念を紹介する。
我々は,深層CNNにおける層構造を逐次的に利用することにより,RLA(recurrent layer aggregate)と呼ばれる非常に軽量なモジュールを提案する。
私たちのRLAモジュールは、ResNets、Xception、MobileNetV2など、多くの主要なCNNと互換性があります。
論文 参考訳(メタデータ) (2021-10-22T15:36:33Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。