Fugu-MT 論文翻訳(概要): Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot Class-Agnostic Counting

論文の概要: Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot Class-Agnostic Counting

arxiv url: http://arxiv.org/abs/2305.04440v2
Date: Mon, 4 Mar 2024 01:34:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 03:36:45.774335
Title: Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot Class-Agnostic Counting
Title（参考訳）: Vision Transformer Off-the-Shelf:Few-Shot Class-Agnostic Countingのサプライスベースライン
Authors: Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu
Abstract要約: CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。我々は、特に視覚変換器(ViT)を用いて、CACを抽出・整合的に単純化できることを示します。
参考スコア（独自算出の注目度）: 24.6404843782228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Class-agnostic counting (CAC) aims to count objects of interest from a query image given few exemplars. This task is typically addressed by extracting the features of query image and exemplars respectively and then matching their feature similarity, leading to an extract-then-match paradigm. In this work, we show that CAC can be simplified in an extract-and-match manner, particularly using a vision transformer (ViT) where feature extraction and similarity matching are executed simultaneously within the self-attention. We reveal the rationale of such simplification from a decoupled view of the self-attention. The resulting model, termed CACViT, simplifies the CAC pipeline into a single pretrained plain ViT. Further, to compensate the loss of the scale and the order-of-magnitude information due to resizing and normalization in plain ViT, we present two effective strategies for scale and magnitude embedding. Extensive experiments on the FSC147 and the CARPK datasets show that CACViT significantly outperforms state-of-the art CAC approaches in both effectiveness (23.60% error reduction) and generalization, which suggests CACViT provides a concise and strong baseline for CAC. Code will be available.
Abstract（参考訳）: CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。このタスクは典型的には、クエリ画像と例題の特徴をそれぞれ抽出し、その特徴の類似性をマッチングすることで対処される。本研究では、特に視覚変換器(ViT)を用いて、自己注意の中で特徴抽出と類似性マッチングを同時に行うことにより、CACを抽出・マッチングで単純化できることを示す。我々は,このような単純化の理論的根拠を,自己着想を分離した視点から明らかにする。 CACViTと呼ばれる結果のモデルは、CACパイプラインを1つの事前訓練されたプレーンViTに単純化する。さらに,vitのリサイズと正規化によるスケールの損失と桁違いの情報を補うために,スケールとサイズ埋め込みのための2つの効果的な戦略を提案する。 FSC147とCARPKデータセットの大規模な実験は、CACViTが最先端のCACアプローチ(23.60%のエラー低減)と一般化の両方で著しく優れており、CACViTがCACの簡潔で強力なベースラインを提供することを示している。コードは利用可能だ。

関連論文リスト

Token Compression Meets Compact Vision Transformers: A Survey and Comparative Evaluation for Edge AI [26.45869748408205]
コンピュータビジョンにおける視覚変換器(ViT)推論のための強力なツールとして、トークン圧縮技術が登場した。本稿では,最初の系統分類法とトークン圧縮法の比較研究について述べる。提案実験により, トークン圧縮法は汎用 ViT に対して有効であるが, コンパクトな設計に直接適用した場合は, 性能が低下することが多いことがわかった。
論文参考訳（メタデータ） (2025-07-13T16:26:05Z)
COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation [2.5234274237739402]
提案するCOIN(Confidence score-guided Instance distillation)は、3つの重要なステップを持つ新しいアノテーションフリーフレームワークである。 COINは最適なトランスポートを持つ教師なしセマンティックセグメンテーションを通じてエラーのないインスタンスの存在に対する感度を高める。接地真理アノテーションの代替を提供し、接地真理アノテーションの代替を提供する。
論文参考訳（メタデータ） (2025-03-14T14:27:24Z)
SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit [6.87425726793675]
Vision Transformer (ViT)はグローバルなモデリングに優れていますが、リソース制約のあるデバイスへのデプロイメントの課題に直面しています。本稿では,セマンティック・アウェア・クラスタリング・ビジョン・トランス (SAC-ViT) を提案する。
論文参考訳（メタデータ） (2025-02-27T02:24:22Z)
Leveraging Registers in Vision Transformers for Robust Adaptation [36.30125926550378]
ビジョントランスフォーマー(ViT)は、グローバルな画像表現をキャプチャできるため、様々なタスクで成功している。近年の研究では、ViTに高ノルムのトークンが存在することが確認されており、教師なしの物体発見に干渉する可能性がある。これを解決するために、グローバルな画像レベルの情報をキャプチャしながら、高い標準パッチトークンを分離する追加トークンである"登録"が提案されている。
論文参考訳（メタデータ） (2025-01-08T19:02:32Z)
SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。 SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文参考訳（メタデータ） (2024-07-18T13:02:57Z)
Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression [63.23578860867408]
重要度評価と疎度評価を1段階にまとめる方法について検討する。重要度と疎度の両方を同時に評価するコスト効率の高いOFBを提案する。実験により、OFBは最先端のサーチベースおよびプルーニングベース手法よりも優れた圧縮性能が得られることが示された。
論文参考訳（メタデータ） (2024-03-23T13:22:36Z)
ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文参考訳（メタデータ） (2023-04-10T02:40:24Z)
Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。 In-Training Representation Alignment (ITRA) を提案する。また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文参考訳（メタデータ） (2022-11-23T22:23:22Z)
Enhancing Few-shot Image Classification with Cosine Transformer [4.511561231517167]
Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
論文参考訳（メタデータ） (2022-11-13T06:03:28Z)
On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文参考訳（メタデータ） (2022-05-26T11:41:36Z)
Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。 CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文参考訳（メタデータ） (2022-03-08T02:57:49Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。