論文の概要: ViT-ProtoNet for Few-Shot Image Classification: A Multi-Benchmark Evaluation
- arxiv url: http://arxiv.org/abs/2507.09299v1
- Date: Sat, 12 Jul 2025 14:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 20:53:35.136852
- Title: ViT-ProtoNet for Few-Shot Image Classification: A Multi-Benchmark Evaluation
- Title(参考訳): ViT-ProtoNet for Few-Shot Image Classification: A Multi-Benchmark Evaluation
- Authors: Abdulvahap Mutlu, Şengül Doğan, Türker Tuncer,
- Abstract要約: 本稿では,VT-SmallバックボーンをPrototypeal Networkフレームワークに統合したViT-ProtoNetを紹介する。
この結果から,ViT-ProtoNetを,数発の分類のための強力で柔軟なアプローチとして確立した。
- 参考スコア(独自算出の注目度): 4.884338536663712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The remarkable representational power of Vision Transformers (ViTs) remains underutilized in few-shot image classification. In this work, we introduce ViT-ProtoNet, which integrates a ViT-Small backbone into the Prototypical Network framework. By averaging class conditional token embeddings from a handful of support examples, ViT-ProtoNet constructs robust prototypes that generalize to novel categories under 5-shot settings. We conduct an extensive empirical evaluation on four standard benchmarks: Mini-ImageNet, FC100, CUB-200, and CIFAR-FS, including overlapped support variants to assess robustness. Across all splits, ViT-ProtoNet consistently outperforms CNN-based prototypical counterparts, achieving up to a 3.2\% improvement in 5-shot accuracy and demonstrating superior feature separability in latent space. Furthermore, it outperforms or is competitive with transformer-based competitors using a more lightweight backbone. Comprehensive ablations examine the impact of transformer depth, patch size, and fine-tuning strategy. To foster reproducibility, we release code and pretrained weights. Our results establish ViT-ProtoNet as a powerful, flexible approach for few-shot classification and set a new baseline for transformer-based meta-learners.
- Abstract(参考訳): 視覚変換器(ViT)の顕著な表現力は、少数画像分類において未利用のままである。
本稿では,VT-SmallのバックボーンをPrototypeal Networkフレームワークに統合したViT-ProtoNetを紹介する。
いくつかのサポート例からのクラス条件付きトークンの埋め込みを平均化することで、ViT-ProtoNetは5ショット設定で新しいカテゴリに一般化する堅牢なプロトタイプを構築している。
我々は,Mini-ImageNet,FC100,CUB-200,CIFAR-FSの4つの標準ベンチマークに対して,重なり合うサポート変数を含む広範な評価を行い,ロバスト性を評価する。
すべての分割において、ViT-ProtoNetはCNNベースのプロトタイプよりも一貫して優れており、5ショットの精度が最大3.2\%向上し、潜在空間における優れた特徴分離性を証明している。
さらに、より軽量なバックボーンを使用して、トランスフォーマーベースの競合製品よりも優れるか、競争力がある。
包括的改善は, 変圧器の深さ, パッチサイズ, 微調整戦略の影響について検討する。
再現性を高めるために、私たちはコードと事前訓練された重みをリリースします。
この結果から,VT-ProtoNetは数ショット分類のための強力なフレキシブルなアプローチであり,トランスフォーマーベースのメタラーナーのための新しいベースラインを設定した。
関連論文リスト
- Slicing Vision Transformer for Flexible Inference [79.35046907288518]
一つのネットワークが複数の小さな ViT を表現できるように,Scala という名前の汎用フレームワークを提案する。
S Scalaは、パラメータが少ないImageNet-1Kで平均1.6%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T05:31:42Z) - Applying ViT in Generalized Few-shot Semantic Segmentation [0.0]
本稿では,汎用的な小ショットセマンティックセマンティックセグメンテーション(GFSS)フレームワーク下でのViTモデルの性能について検討する。
ResNetsやViT(Pretrained Vision Transformer)ベースのモデルなど,バックボーンモデルのさまざまな組み合わせによる実験を行った。
GFSSタスク上での大規模な事前学習型ViTモデルの可能性を示すとともに,テストベンチマークのさらなる改善を期待する。
論文 参考訳(メタデータ) (2024-08-27T11:04:53Z) - Semi-supervised Vision Transformers at Scale [93.0621675558895]
視覚変換器(ViT)のための半教師あり学習(SSL)について検討する。
我々は、最初のun/self教師付き事前トレーニングと教師付き微調整、そして最後に半教師付き微調整からなる新しいSSLパイプラインを提案する。
提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を達成している。
論文 参考訳(メタデータ) (2022-08-11T08:11:54Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。