論文の概要: Backbone is All Your Need: A Simplified Architecture for Visual Object
Tracking
- arxiv url: http://arxiv.org/abs/2203.05328v1
- Date: Thu, 10 Mar 2022 12:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 20:49:26.929274
- Title: Backbone is All Your Need: A Simplified Architecture for Visual Object
Tracking
- Title(参考訳): backboneはあなたのニーズのすべてです:ビジュアルオブジェクト追跡のためのシンプルなアーキテクチャ
- Authors: Boyu Chen, Peixia Li, Lei Bai, Lei Qiao, Qiuhong Shen, Bo Li, Weihao
Gan, Wei Wu, Wanli Ouyang
- Abstract要約: 既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャの選択に事前知識が必要である。
本稿では,コンバータバックボーンを用いた簡易なトラッキングアーキテクチャ(SimTrack)を提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
- 参考スコア(独自算出の注目度): 69.08903927311283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploiting a general-purpose neural architecture to replace hand-wired
designs or inductive biases has recently drawn extensive interest. However,
existing tracking approaches rely on customized sub-modules and need prior
knowledge for architecture selection, hindering the tracking development in a
more general system. This paper presents a Simplified Tracking architecture
(SimTrack) by leveraging a transformer backbone for joint feature extraction
and interaction. Unlike existing Siamese trackers, we serialize the input
images and concatenate them directly before the one-branch backbone. Feature
interaction in the backbone helps to remove well-designed interaction modules
and produce a more efficient and effective framework. To reduce the information
loss from down-sampling in vision transformers, we further propose a foveal
window strategy, providing more diverse input patches with acceptable
computational costs. Our SimTrack improves the baseline with 2.5%/2.6% AUC
gains on LaSOT/TNL2K and gets results competitive with other specialized
tracking algorithms without bells and whistles.
- Abstract(参考訳): 手作業による設計や帰納的バイアスを置き換える汎用神経アーキテクチャの展開は、最近広く関心を集めている。
しかし、既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャ選択の事前知識を必要としており、より一般的なシステムでのトラッキング開発を妨げる。
本稿では,ジョイント特徴抽出とインタラクションのためにトランスフォーマーバックボーンを利用した簡易トラッキングアーキテクチャ(simtrack)を提案する。
既存のシームズトラッカーとは異なり、入力画像をシリアライズし、ワンブランチバックボーンの前に直接結合する。
バックボーンの機能的相互作用は、よく設計された相互作用モジュールを取り除き、より効率的で効果的なフレームワークを作成するのに役立つ。
視覚トランスフォーマーにおけるダウンサンプリングによる情報損失を低減するため、より多様な入力パッチを許容可能な計算コストで提供するフォビアウィンドウ戦略も提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - VisionTraj: A Noise-Robust Trajectory Recovery Framework based on
Large-scale Camera Network [18.99662554949384]
都市全体のマルチカメラネットワークからのスナップショットに基づく軌道回復は、都市移動度検知とドライブウェイ最適化を容易にする。
本稿では,道路ネットワークカメラが記録したスナップショットから車両軌道を再構成する最初の学習モデルであるVisionTrajを提案する。
論文 参考訳(メタデータ) (2023-12-11T14:52:43Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。