論文の概要: Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot
Class-Agnostic Counting
- arxiv url: http://arxiv.org/abs/2305.04440v1
- Date: Mon, 8 May 2023 03:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:44:30.327512
- Title: Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot
Class-Agnostic Counting
- Title(参考訳): Vision Transformer Off-the-Shelf:Few-Shot Class-Agnostic Countingのサプライスベースライン
- Authors: Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu
- Abstract要約: CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。
我々は、事前訓練された平らな視覚変換器(ViT)を用いて、CACを抽出・テキスト・マッチ方式で単純化できることを示す。
- 参考スコア(独自算出の注目度): 27.34229355189488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-agnostic counting (CAC) aims to count objects of interest from a query
image given few exemplars. This task is typically addressed by extracting the
features of query image and exemplars respectively with (un)shared feature
extractors and by matching their feature similarity, leading to an
extract-\textit{then}-match paradigm. In this work, we show that CAC can be
simplified in an extract-\textit{and}-match manner, particularly using a
pretrained and plain vision transformer (ViT) where feature extraction and
similarity matching are executed simultaneously within the self-attention. We
reveal the rationale of such simplification from a decoupled view of the
self-attention and point out that the simplification is only made possible if
the query and exemplar tokens are concatenated as input. The resulting model,
termed CACViT, simplifies the CAC pipeline and unifies the feature spaces
between the query image and exemplars. In addition, we find CACViT naturally
encodes background information within self-attention, which helps reduce
background disturbance. Further, to compensate the loss of the scale and the
order-of-magnitude information due to resizing and normalization in ViT, we
present two effective strategies for scale and magnitude embedding. Extensive
experiments on the FSC147 and the CARPK datasets show that CACViT significantly
outperforms state-of-the-art CAC approaches in both effectiveness (23.60% error
reduction) and generalization, which suggests CACViT provides a concise and
strong baseline for CAC. Code will be available.
- Abstract(参考訳): CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。
このタスクは、クエリイメージとexemplarsの特徴を(未)共有特徴抽出子でそれぞれ抽出し、それらの特徴の類似性を一致させることで、extract-\textit{then}-matchパラダイムへと導かれる。
本研究では,CACを抽出-\textit{and}-match方式で単純化できることを示す。特に,特徴抽出と類似性マッチングを自己注意内で同時に実行する事前学習型・平易な視覚変換器(ViT)を用いる。
このような単純化の理論的根拠を,自己着脱視点から明らかにし,クエリトークンとexemplarトークンが入力として結合された場合にのみ実現可能であることを指摘する。
CACViTと呼ばれる結果のモデルは、CACパイプラインを単純化し、クエリイメージと例間の特徴空間を統一する。
さらに,CACViTは自然に自己注意内の背景情報を符号化し,背景障害を軽減する。
さらに,ViTの小型化と正規化によるスケールの損失とマグニチュード情報の順序を補うために,スケールとマグニチュードの埋め込みに有効な2つの戦略を提案する。
FSC147とCARPKデータセットの大規模な実験により、CACViTはCACの精度と一般化の両方において最先端のCACアプローチ(23.60%のエラー低減)を著しく上回り、CACViTはCACの簡潔で強力なベースラインを提供することを示している。
コードは利用可能だ。
関連論文リスト
- SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。
SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文 参考訳(メタデータ) (2024-07-18T13:02:57Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Enhancing Few-shot Image Classification with Cosine Transformer [4.511561231517167]
Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。
本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。
我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-13T06:03:28Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。