論文の概要: Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot
Class-Agnostic Counting
- arxiv url: http://arxiv.org/abs/2305.04440v2
- Date: Mon, 4 Mar 2024 01:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:36:45.774335
- Title: Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot
Class-Agnostic Counting
- Title(参考訳): Vision Transformer Off-the-Shelf:Few-Shot Class-Agnostic Countingのサプライスベースライン
- Authors: Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu
- Abstract要約: CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。
我々は、特に視覚変換器(ViT)を用いて、CACを抽出・整合的に単純化できることを示します。
- 参考スコア(独自算出の注目度): 24.6404843782228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-agnostic counting (CAC) aims to count objects of interest from a query
image given few exemplars. This task is typically addressed by extracting the
features of query image and exemplars respectively and then matching their
feature similarity, leading to an extract-then-match paradigm. In this work, we
show that CAC can be simplified in an extract-and-match manner, particularly
using a vision transformer (ViT) where feature extraction and similarity
matching are executed simultaneously within the self-attention. We reveal the
rationale of such simplification from a decoupled view of the self-attention.
The resulting model, termed CACViT, simplifies the CAC pipeline into a single
pretrained plain ViT. Further, to compensate the loss of the scale and the
order-of-magnitude information due to resizing and normalization in plain ViT,
we present two effective strategies for scale and magnitude embedding.
Extensive experiments on the FSC147 and the CARPK datasets show that CACViT
significantly outperforms state-of-the art CAC approaches in both effectiveness
(23.60% error reduction) and generalization, which suggests CACViT provides a
concise and strong baseline for CAC. Code will be available.
- Abstract(参考訳): CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。
このタスクは典型的には、クエリ画像と例題の特徴をそれぞれ抽出し、その特徴の類似性をマッチングすることで対処される。
本研究では、特に視覚変換器(ViT)を用いて、自己注意の中で特徴抽出と類似性マッチングを同時に行うことにより、CACを抽出・マッチングで単純化できることを示す。
我々は,このような単純化の理論的根拠を,自己着想を分離した視点から明らかにする。
CACViTと呼ばれる結果のモデルは、CACパイプラインを1つの事前訓練されたプレーンViTに単純化する。
さらに,vitのリサイズと正規化によるスケールの損失と桁違いの情報を補うために,スケールとサイズ埋め込みのための2つの効果的な戦略を提案する。
FSC147とCARPKデータセットの大規模な実験は、CACViTが最先端のCACアプローチ(23.60%のエラー低減)と一般化の両方で著しく優れており、CACViTがCACの簡潔で強力なベースラインを提供することを示している。
コードは利用可能だ。
関連論文リスト
- Leveraging Registers in Vision Transformers for Robust Adaptation [36.30125926550378]
ビジョントランスフォーマー(ViT)は、グローバルな画像表現をキャプチャできるため、様々なタスクで成功している。
近年の研究では、ViTに高ノルムのトークンが存在することが確認されており、教師なしの物体発見に干渉する可能性がある。
これを解決するために、グローバルな画像レベルの情報をキャプチャしながら、高い標準パッチトークンを分離する追加トークンである"登録"が提案されている。
論文 参考訳(メタデータ) (2025-01-08T19:02:32Z) - Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。
重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。
実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-23T13:22:36Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Enhancing Few-shot Image Classification with Cosine Transformer [4.511561231517167]
Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。
本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。
我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-13T06:03:28Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。