論文の概要: Rethinking Generalization in Few-Shot Classification
- arxiv url: http://arxiv.org/abs/2206.07267v1
- Date: Wed, 15 Jun 2022 03:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 14:16:32.352391
- Title: Rethinking Generalization in Few-Shot Classification
- Title(参考訳): ファウショット分類における一般化の再考
- Authors: Markus Hiller, Rongkai Ma, Mehrtash Harandi, Tom Drummond
- Abstract要約: 単一のイメージレベルのアノテーションは、しばしば画像の内容の小さなサブセットを正しく記述するだけである。
本稿では、textitfew-shot Learning$の文脈における意味を詳しく調べる。
我々は、きめ細かいラベルの欠如を克服するため、マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩の上に構築する。
- 参考スコア(独自算出の注目度): 28.809141478504532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single image-level annotations only correctly describe an often small subset
of an image's content, particularly when complex real-world scenes are
depicted. While this might be acceptable in many classification scenarios, it
poses a significant challenge for applications where the set of classes differs
significantly between training and test time. In this paper, we take a closer
look at the implications in the context of $\textit{few-shot learning}$.
Splitting the input samples into patches and encoding these via the help of
Vision Transformers allows us to establish semantic correspondences between
local regions across images and independent of their respective class. The most
informative patch embeddings for the task at hand are then determined as a
function of the support set via online optimization at inference time,
additionally providing visual interpretability of `$\textit{what matters
most}$' in the image. We build on recent advances in unsupervised training of
networks via masked image modelling to overcome the lack of fine-grained labels
and learn the more general statistical structure of the data while avoiding
negative image-level annotation influence, $\textit{aka}$ supervision collapse.
Experimental results show the competitiveness of our approach, achieving new
state-of-the-art results on four popular few-shot classification benchmarks for
$5$-shot and $1$-shot scenarios.
- Abstract(参考訳): 単一の画像レベルのアノテーションは、画像の内容の小さなサブセット、特に複雑な実世界のシーンを正しく記述するだけである。
これは多くの分類シナリオで受け入れられるかもしれないが、クラスの集合がトレーニングとテスト時間で著しく異なるアプリケーションにとって大きな課題となる。
本稿では、$\textit{few-shot learning}$という文脈における意味を詳しく見てみよう。
入力サンプルをパッチに分割し、ビジョントランスフォーマーの助けを借りてエンコーディングすることで、イメージをまたいだローカル領域間のセマンティックな対応を確立することができます。
手元のタスクに対する最も有益なパッチ埋め込みは、推測時にオンライン最適化によってセットされたサポートの関数として決定され、さらに画像内の$$\textit{what matters most}$'の視覚的解釈性を提供する。
我々は,細粒度ラベルの欠如を克服し,より一般的な統計構造を学習するために,マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩に基づき,負のイメージレベルのアノテーションの影響を回避し,$\textit{aka}$ supervisor collapse を回避した。
実験の結果,我々のアプローチの競争力が示され,5ドルと1ドルのシナリオで,人気のある4つのマイナショット分類ベンチマークで最新の結果が得られた。
関連論文リスト
- Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing Domain [0.0]
Few-shotセグメンテーション(Few-shot segmentation)は、いくつかのアノテーション付きの例だけを与えられた画像内でオブジェクトや新しいクラスの領域を分割するタスクである。
私たちはベースモデルとしてSegGPTを使用し、ベースクラスでそれをトレーニングします。
通常リモートセンシング領域に存在する様々なオブジェクトサイズを扱うために、パッチベースの予測を行う。
論文 参考訳(メタデータ) (2024-04-16T06:33:08Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Sparse Spatial Transformers for Few-Shot Learning [6.271261279657655]
限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
論文 参考訳(メタデータ) (2021-09-27T10:36:32Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Few-Shot Semantic Segmentation Augmented with Image-Level Weak
Annotations [23.02986307143718]
ショットセマンティックセグメンテーションの最近の進歩は、わずか数ピクセルレベルの注釈付き例によってこの問題に対処している。
私たちのキーとなるアイデアは、イメージレベルのラベル付きデータから知識を融合させることで、クラスのより優れたプロトタイプ表現を学ぶことです。
画像レベルのアノテーションを統合することで,距離空間におけるクラスプロトタイプ表現を学習するための新しいフレームワークPAIAを提案する。
論文 参考訳(メタデータ) (2020-07-03T04:58:20Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。