論文の概要: Divert More Attention to Vision-Language Tracking
- arxiv url: http://arxiv.org/abs/2207.01076v1
- Date: Sun, 3 Jul 2022 16:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:23:47.335776
- Title: Divert More Attention to Vision-Language Tracking
- Title(参考訳): 視覚言語追跡にもっと注意を向ける
- Authors: Mingzhe Guo, Zhipeng Zhang, Heng Fan, Liping Jing
- Abstract要約: ConvNetsはいまだに競争力があり、より経済的であり、SOTA追跡を達成する上で友好的であることを示す。
我々の解決策は、単にConvNetsを使って、マルチモーダル視覚言語(VL)追跡のパワーを解き放つことである。
ConvNetsで純粋に学習した我々の統一適応型VL表現は、Transformerの視覚的特徴の単純かつ強力な代替手段であることを示す。
- 参考スコア(独自算出の注目度): 33.6802730856683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relying on Transformer for complex visual feature learning, object tracking
has witnessed the new standard for state-of-the-arts (SOTAs). However, this
advancement accompanies by larger training data and longer training period,
making tracking increasingly expensive. In this paper, we demonstrate that the
Transformer-reliance is not necessary and the pure ConvNets are still
competitive and even better yet more economical and friendly in achieving SOTA
tracking. Our solution is to unleash the power of multimodal vision-language
(VL) tracking, simply using ConvNets. The essence lies in learning novel
unified-adaptive VL representations with our modality mixer (ModaMixer) and
asymmetrical ConvNet search. We show that our unified-adaptive VL
representation, learned purely with the ConvNets, is a simple yet strong
alternative to Transformer visual features, by unbelievably improving a
CNN-based Siamese tracker by 14.5% in SUC on challenging LaSOT (50.7% > 65.2%),
even outperforming several Transformer-based SOTA trackers. Besides empirical
results, we theoretically analyze our approach to evidence its effectiveness.
By revealing the potential of VL representation, we expect the community to
divert more attention to VL tracking and hope to open more possibilities for
future tracking beyond Transformer. Code and models will be released at
https://github.com/JudasDie/SOTS.
- Abstract(参考訳): 複雑な視覚機能学習のためのトランスフォーマーに頼ることで、オブジェクトトラッキングは最先端(sota)の新しい標準を目撃した。
しかし、この進歩は、より大きなトレーニングデータと長いトレーニング期間によって伴い、トラッキングがますます高価になる。
本稿では,Transformer-Relianceが不要であり,純粋なConvNetは依然として競争力があり,SOTAトラッキングの達成において,より経済的かつ友好的であることを示す。
我々の解決策は、単にConvNetsを使って、マルチモーダル視覚言語(VL)追跡のパワーを解き放つことである。
その本質は、モダリティミキサー(ModaMixer)と非対称なConvNetサーチによる新しい統一適応型VL表現の学習にある。
convnetsで純粋に学んだ統一適応型vl表現は、cnnベースのsiameseトラッカーを、挑戦的なlasot(50.7% > 65.2%)上で14.5%sucで改善し、トランスフォーマーベースのsomaトラッカーを上回っても、トランスフォーマーの視覚機能に代わるシンプルで強力なものであることを示しています。
実験結果に加えて,その効果を証明するためのアプローチを理論的に分析した。
VL表現の可能性を明らかにすることで、コミュニティはVLトラッキングにもっと注意を向け、Transformer以外の将来のトラッキングの可能性を広げたいと思っています。
コードとモデルはhttps://github.com/JudasDie/SOTS.comでリリースされる。
関連論文リスト
- Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - SwinTrack: A Simple and Strong Baseline for Transformer Tracking [81.65306568735335]
完全注意型トランスフォーマートラッキングアルゴリズムSwin-Transformer Tracker(SwinTrack)を提案する。
SwinTrackは、機能抽出と機能融合の両方にTransformerを使用し、ターゲットオブジェクトと検索領域の間の完全なインタラクションを可能にする。
我々の徹底的な実験で、SwinTrackはLaSOT上で0.717 SUCで新しい記録を樹立し、45FPSで走りながらSTARKを4.6%上回った。
論文 参考訳(メタデータ) (2021-12-02T05:56:03Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。