論文の概要: Multi-Scale Visual Prompting for Lightweight Small-Image Classification
- arxiv url: http://arxiv.org/abs/2512.03663v1
- Date: Wed, 03 Dec 2025 10:51:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:09:09.163028
- Title: Multi-Scale Visual Prompting for Lightweight Small-Image Classification
- Title(参考訳): 軽量小画像分類のためのマルチスケールビジュアルプロンプト
- Authors: Salim Khazem,
- Abstract要約: textbfMulti-Scale Visual Prompting (MSVP) は,大域的,中規模,局所的なプロンプトマップの集合を,軽量な1/1の畳み込みによって融合した,シンプルで汎用的なモジュールである。
MSVPはバックボーンに依存しず、0.02%以下のパラメータを追加し、CNNとVision Transformerのバックボーンのパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License:
- Abstract: Visual prompting has recently emerged as an efficient strategy to adapt vision models using lightweight, learnable parameters injected into the input space. However, prior work mainly targets large Vision Transformers and high-resolution datasets such as ImageNet. In contrast, small-image benchmarks like MNIST, Fashion-MNIST, and CIFAR-10 remain widely used in education, prototyping, and research, yet have received little attention in the context of prompting. In this paper, we introduce \textbf{Multi-Scale Visual Prompting (MSVP)}, a simple and generic module that learns a set of global, mid-scale, and local prompt maps fused with the input image via a lightweight $1 \times 1$ convolution. MSVP is backbone-agnostic, adds less than $0.02\%$ parameters, and significantly improves performance across CNN and Vision Transformer backbones. We provide a unified benchmark on MNIST, Fashion-MNIST, and CIFAR-10 using a simple CNN, ResNet-18, and a small Vision Transformer. Our method yields consistent improvements with negligible computational overhead. We further include ablations on prompt scales, fusion strategies, and backbone architectures, along with qualitative analyzes using prompt visualizations and Grad-CAM. Our results demonstrate that multi-scale prompting provides an effective inductive bias even on low-resolution images.
- Abstract(参考訳): 視覚プロンプトは、入力空間に注入された軽量で学習可能なパラメータを使って視覚モデルを適応するための効率的な戦略として最近登場した。
しかし、以前の作業は主に大きなビジョントランスフォーマーとImageNetのような高解像度データセットをターゲットにしている。
対照的に、MNIST、Fashion-MNIST、CIFAR-10のような小さな画像のベンチマークは、教育、プロトタイピング、研究で広く使われているが、プロンプトの文脈ではほとんど注目されていない。
本稿では,大域的,中規模,局所的なプロンプトマップの集合を,軽量な1ドル1セントの畳み込みによる入力画像と融合する,シンプルで汎用的なモジュールである「textbf{Multi-Scale Visual Prompting (MSVP)」を紹介する。
MSVPはバックボーンに依存しず、0.02\%以下のパラメータを追加し、CNNとVision Transformerのバックボーンのパフォーマンスを大幅に改善する。
我々は、単純なCNN、ResNet-18、小さなビジョン変換器を用いて、MNIST、Fashion-MNIST、CIFAR-10の統一ベンチマークを提供する。
提案手法は,計算オーバーヘッドの無視による一貫した改善をもたらす。
さらに、迅速な可視化とGrad-CAMを用いた定性的な分析とともに、迅速なスケール、融合戦略、バックボーンアーキテクチャの短縮も含んでいます。
以上の結果から,マルチスケールプロンプトは低解像度画像においても効果的な帰納バイアスを与えることが示された。
関連論文リスト
- ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - CNN and ViT Efficiency Study on Tiny ImageNet and DermaMNIST Datasets [0.0]
我々は,DermatologyMNISTとTinyImageNetの4種類の視覚変換器(Tiny, Small, Base, Large)に適用した微調整戦略を提案する。
適切に調整された視覚変換器は、ベースラインのパフォーマンスにマッチまたは超過し、より高速な推論を実現し、少ないパラメータで操作できることを実証する。
論文 参考訳(メタデータ) (2025-05-13T06:17:18Z) - Low-Level Matters: An Efficient Hybrid Architecture for Robust Multi-frame Infrared Small Target Detection [5.048364655933007]
マルチフレーム赤外線小目標検出は、低高度および海洋監視において重要な役割を果たす。
CNNとTransformerを組み合わせたハイブリッドアーキテクチャは、マルチフレームIRSTDの強化に大いに期待できる。
低レベルの機能学習ハイブリッドフレームワークを再定義する,シンプルながら強力なハイブリッドアーキテクチャであるLVNetを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:53:25Z) - AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
大規模な実験と分析により、AVG-LLaVAは11ベンチマークで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。