論文の概要: Visual Sparse Steering: Improving Zero-shot Image Classification with Sparsity Guided Steering Vectors
- arxiv url: http://arxiv.org/abs/2506.01247v1
- Date: Mon, 02 Jun 2025 01:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.006143
- Title: Visual Sparse Steering: Improving Zero-shot Image Classification with Sparsity Guided Steering Vectors
- Title(参考訳): ビジュアルスパースステアリング:スポーシティ誘導ステアリングベクトルによるゼロショット画像分類の改善
- Authors: Gerasimos Chatzoudis, Zhuowei Li, Gemma E. Moran, Hao Wang, Dimitris N. Metaxas,
- Abstract要約: スパース特徴から導かれるステアリングベクトルを用いて視覚モデルを誘導するテストタイム手法であるVisual Sparse Steering (VS2)を紹介する。
VS2は、CIFAR-100で4.12%、CUB-200で1.08%、Tiny-ImageNetで1.84%、ゼロショットCLIPを超える。
VS2++はCLIPゼロショットに対してCIFAR-100で最大21.44%、CUB-200で7.08%、Tiny-ImageNetで20.47%という絶対的なトップ1アップを達成した。
- 参考スコア(独自算出の注目度): 29.50798248096415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering vision foundation models at inference time without retraining or access to large labeled datasets is a desirable yet challenging objective, particularly in dynamic or resource-constrained settings. In this paper, we introduce Visual Sparse Steering (VS2), a lightweight, test-time method that guides vision models using steering vectors derived from sparse features learned by top-$k$ Sparse Autoencoders without requiring contrastive data. Specifically, VS2 surpasses zero-shot CLIP by 4.12% on CIFAR-100, 1.08% on CUB-200, and 1.84% on Tiny-ImageNet. We further propose VS2++, a retrieval-augmented variant that selectively amplifies relevant sparse features using pseudo-labeled neighbors at inference time. With oracle positive/negative sets, VS2++ achieves absolute top-1 gains over CLIP zero-shot of up to 21.44% on CIFAR-100, 7.08% on CUB-200, and 20.47% on Tiny-ImageNet. Interestingly, VS2 and VS2++ raise per-class accuracy by up to 25% and 38%, respectively, showing that sparse steering benefits specific classes by disambiguating visually or taxonomically proximate categories rather than providing a uniform boost. Finally, to better align the sparse features learned through the SAE reconstruction task with those relevant for downstream performance, we propose Prototype-Aligned Sparse Steering (PASS). By incorporating a prototype-alignment loss during SAE training, using labels only during training while remaining fully test-time unsupervised, PASS consistently, though modestly, outperforms VS2, achieving a 6.12% gain over VS2 only on CIFAR-100 with ViT-B/32.
- Abstract(参考訳): 大規模なラベル付きデータセットの再トレーニングやアクセスなしに、推論時に視覚基盤モデルをステアリングすることは、特に動的あるいはリソース制約のある設定において、望ましいが困難な目標である。
本稿では,トップ$kのスパースオートエンコーダで学習したスパース特徴から得られるステアリングベクトルを用いて,視覚モデルをガイドする軽量なテストタイム手法であるVisual Sparse Steering (VS2)を紹介する。
具体的には、VS2は、CIFAR-100で4.12%、CUB-200で1.08%、Tiny-ImageNetで1.84%、ゼロショットCLIPを超える。
さらに,提案するVS2++は,推測時に擬似ラベル付き隣人を用いて,関連スパース機能を選択的に増幅する検索拡張型である。
CIFAR-100では最大21.44%、CUB-200では7.08%、Tiny-ImageNetでは20.47%である。
興味深いことに、VS2とVS2++はクラスごとの精度を最大25%、VS2++は38%向上している。
最後に、SAE再構成タスクで学んだスパース機能を下流のパフォーマンスに関連付けるために、PASS(Prototype-Aligned Sparse Steering)を提案する。
PASSは、SAEトレーニング中にプロトタイプアライメントの損失を埋め込むことで、トレーニング中にのみラベルを使用でき、完全なテストタイムの無監督のままで、一貫してVS2を上回っ、VT-B/32のCIFAR-100でのみVS2よりも6.12%向上した。
関連論文リスト
- ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention [33.00435765051738]
我々は、Gated Linear Attention (GLA) を視覚に導入し、その優れたハードウェア認識と効率を活用している。
提案するモデルであるViGは、ImageNetおよび下流タスクにおける精度、パラメータ、FLOPの良好なトレードオフを提供する。
ViG-Tは5.2$times$より少ないFLOPを使用し、90%のGPUメモリを節約し、4.8$times$高速に動作し、DeiT-Tよりも20.7%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-05-28T17:59:21Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Offline Visual Representation Learning for Embodied Navigation [50.442660137987275]
自己教師付き学習による視覚表現のオフライン事前学習(SSL)
長期学習スケジュール下での画像強調による特定のタスクにおけるビジュモータ表現のオンライン微調整
論文 参考訳(メタデータ) (2022-04-27T23:22:43Z) - Visual Representation Learning with Self-Supervised Attention for
Low-Label High-data Regime [0.41998444721319217]
自己監督型ビジョントランスフォーマー(SSL-ViT)は、低ラベルで高データ状態の2つの重要なコンピュータビジョンタスクに適応することができる。
数ショットのイメージ分類では、SSL-ViTを外部データに監視せずにトレーニングし、このトレーニング済み埋め込みを使用して、ラベル数が限られている新しいクラスに迅速に適応します。
ゼロショット画像検索には、ラベルのない大規模なデータセットで事前トレーニングされたSSL-ViTを使用し、いくつかのメトリック学習目標でそれらを微調整する。
論文 参考訳(メタデータ) (2022-01-22T02:37:07Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。