論文の概要: Class-relevant Patch Embedding Selection for Few-Shot Image Classification
- arxiv url: http://arxiv.org/abs/2405.03722v1
- Date: Mon, 6 May 2024 02:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:24:15.417484
- Title: Class-relevant Patch Embedding Selection for Few-Shot Image Classification
- Title(参考訳): Few-Shot画像分類のためのクラス関連パッチ埋め込み選択
- Authors: Weihao Jiang, Haoyang Cui, Kun He,
- Abstract要約: クラス関連パッチの埋め込みを選択する新しい方法を提案する。
我々の戦略は、クラス非関連パッチ埋め込みの影響を効果的に軽減し、事前訓練されたモデルの性能を向上させる。
- 参考スコア(独自算出の注目度): 10.102079949259043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective image classification hinges on discerning relevant features from both foreground and background ele- ments, with the foreground typically holding the critical informa- tion. While humans adeptly classify images with limited exposure, artificial neural networks often struggle with feature selection from rare samples. To address this challenge, we propose a novel method for selecting class-relevant patch embeddings. Our ap- proach involves splitting support and query images into patches, encoding them using a pre-trained Vision Transformer (ViT) to obtain class embeddings and patch embeddings, respectively. Subsequently, we filter patch embeddings using class embeddings to retain only the class-relevant ones. For each image, we calculate the similarity between class embedding and each patch embed- ding, sort the similarity sequence in descending order, and only retain top-ranked patch embeddings. By prioritizing similarity between the class embedding and patch embeddings, we select top-ranked patch embeddings to be fused with class embedding to form a comprehensive image representation, enhancing pattern recognition across instances. Our strategy effectively mitigates the impact of class-irrelevant patch embeddings, yielding improved performance in pre-trained models. Extensive experiments on popular few-shot classification benchmarks demonstrate the sim- plicity, efficacy, and computational efficiency of our approach, outperforming state-of-the-art baselines under both 5-shot and 1-shot scenarios.
- Abstract(参考訳): 効果的な画像分類は、前景と背景要素の両方から関連する特徴を識別し、前景は、通常、重要なインフォメータオンを保持する。
人間は画像に限られた露出で分類するが、ニューラルネットワークは希少なサンプルからの特徴選択に苦慮することが多い。
この課題に対処するために,クラス関連パッチの埋め込みを選択する新しい手法を提案する。
我々のap-proachは、サポートとクエリイメージをパッチに分割し、トレーニング済みのViT(Vision Transformer)を使ってそれらをエンコードして、それぞれクラス埋め込みとパッチ埋め込みを取得します。
その後、クラス埋め込みを使用してパッチ埋め込みをフィルタリングし、クラス関連のみを保持する。
各画像に対して、クラス埋め込みと各パッチ埋め込みの類似度を算出し、類似度シーケンスを下位順にソートし、トップランクのパッチ埋め込みのみを保持する。
クラス埋め込みとパッチ埋め込みの類似性を優先順位付けすることで、クラス埋め込みと融合して包括的なイメージ表現を形成するトップランクのパッチ埋め込みを選択し、インスタンス間のパターン認識を強化します。
我々の戦略は、クラス非関連パッチ埋め込みの影響を効果的に軽減し、事前訓練されたモデルの性能を向上させる。
一般的な数ショット分類ベンチマークによる大規模な実験は、我々のアプローチのシム・プライオリティ、有効性、計算効率を示し、5ショットと1ショットの両方のシナリオで最先端のベースラインを上回ります。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Few-shot Open-set Recognition Using Background as Unknowns [58.04165813493666]
未使用のオープンセット認識は、見知らぬクラスの限られた訓練データしか持たない、目に見える画像と新しい画像の両方を分類することを目的としている。
提案手法は,複数のベースラインより優れるだけでなく,3つのベンチマークで新たな結果が得られた。
論文 参考訳(メタデータ) (2022-07-19T04:19:29Z) - Privacy-Preserving Image Classification Using Vision Transformer [16.679394807198]
暗号化画像と視覚変換器(ViT)を組み合わせたプライバシー保護画像分類手法を提案する。
ViTは画像パッチにパッチ埋め込みと位置埋め込みを利用するため、このアーキテクチャはブロックワイド画像変換の影響を低減することができる。
実験では,様々な攻撃に対する分類精度とロバスト性の観点から,プライバシー保護画像分類の手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T12:51:48Z) - iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition [33.2800417526215]
画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
論文 参考訳(メタデータ) (2022-04-22T15:27:21Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Boosting few-shot classification with view-learnable contrastive
learning [19.801016732390064]
埋め込み空間の細粒度構造を学習するために,数ショットの分類に対照的な損失を導入する。
我々は,同じ画像の異なるビューを自動的に生成する学習学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-20T03:13:33Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Memory-Efficient Incremental Learning Through Feature Adaptation [71.1449769528535]
本稿では,以前学習したクラスから,画像の特徴記述子を保存するインクリメンタルラーニングのアプローチを提案する。
画像のより低次元の機能埋め込みを維持することで、メモリフットプリントが大幅に削減される。
実験の結果,インクリメンタルラーニングベンチマークにおいて,最先端の分類精度が得られた。
論文 参考訳(メタデータ) (2020-04-01T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。