論文の概要: ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving
Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2304.13287v1
- Date: Wed, 26 Apr 2023 04:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 15:28:04.920975
- Title: ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving
Few-Shot Learning
- Title(参考訳): ESPT:Few-Shot学習改善のための自己監督型空間テキストタスク
- Authors: Yi Rong, Xiongbo Lu, Zhaoyang Sun, Yaxiong Chen, Shengwu Xiong
- Abstract要約: 我々は,新しい自己教師型空間規範タスク(ESPT)により,数発の学習目標を増強することを提案する。
ESPTの目的は、原エピソードと変換されたエピソードの間の局所的な空間的関係の一貫性を最大化することである。
ESPT法は,3つのメインステイ・ベンチマーク・データセットを用いた数ショット画像分類のための新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 16.859375666701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) techniques have recently been integrated into
the few-shot learning (FSL) framework and have shown promising results in
improving the few-shot image classification performance. However, existing SSL
approaches used in FSL typically seek the supervision signals from the global
embedding of every single image. Therefore, during the episodic training of
FSL, these methods cannot capture and fully utilize the local visual
information in image samples and the data structure information of the whole
episode, which are beneficial to FSL. To this end, we propose to augment the
few-shot learning objective with a novel self-supervised Episodic Spatial
Pretext Task (ESPT). Specifically, for each few-shot episode, we generate its
corresponding transformed episode by applying a random geometric transformation
to all the images in it. Based on these, our ESPT objective is defined as
maximizing the local spatial relationship consistency between the original
episode and the transformed one. With this definition, the ESPT-augmented FSL
objective promotes learning more transferable feature representations that
capture the local spatial features of different images and their
inter-relational structural information in each input episode, thus enabling
the model to generalize better to new categories with only a few samples.
Extensive experiments indicate that our ESPT method achieves new
state-of-the-art performance for few-shot image classification on three
mainstay benchmark datasets. The source code will be available at:
https://github.com/Whut-YiRong/ESPT.
- Abstract(参考訳): 自己教師あり学習(SSL)技術は、最近、数ショット学習(FSL)フレームワークに統合され、数ショット画像分類性能を改善するための有望な結果を示している。
しかし、FSLで使われている既存のSSLアプローチは、通常、すべてのイメージのグローバルな埋め込みから監視信号を求める。
したがって、FSLのエピソードトレーニングにおいて、これらの手法は、画像サンプルの局所的な視覚情報と、FSLにとって有益であるエピソード全体のデータ構造情報をキャプチャし、完全に活用することはできない。
そこで本稿では,新たな自己教師型空間規範タスク (ESPT) による数発学習目標の強化を提案する。
具体的には,各映像にランダムな幾何学的変換を施すことにより,各映像毎に対応する変換エピソードを生成する。
これらのことから, ESPTの目的は, 元のエピソードと変換されたエピソードとの局所的空間的関係の整合性を最大化するものとして定義される。
この定義により、ESPT拡張されたFSLは、異なる画像の局所的な空間的特徴と、各入力エピソードにおけるそれらの相互関係構造情報をキャプチャする、より伝達可能な特徴表現の学習を促進する。
広範な実験により,本手法は3つのメインスタイベンチマークデータセットにおいて,新たな最先端性能を実現することを示唆する。
ソースコードは、https://github.com/Whut-YiRong/ESPT.comで入手できる。
関連論文リスト
- Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Semantic Cross Attention for Few-shot Learning [9.529264466445236]
本稿では,ラベルテキストのセマンティックな特徴を補助的タスクとして見るためのマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
論文 参考訳(メタデータ) (2022-10-12T15:24:59Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメイン少ショット学習は、一般的な自然画像から新しいドメイン固有のターゲットカテゴリへ知識を伝達することを目的としている。
本稿では、ソースデータセットのスタイル分布を分散させることにより、CD-FSLの問題点を考察する。
我々のモデルを視覚的スタイルに堅牢にするために、低周波成分のスタイルを交換することで、ソースイメージを拡張します。
論文 参考訳(メタデータ) (2022-03-15T05:36:41Z) - Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning [11.66422653137002]
本稿では,ゼロショット学習の課題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。
本手法では,視覚変換器に適応したアテンション機構を用いて,画像から小さなパッチに分割することで識別属性をキャプチャし,学習する。
論文 参考訳(メタデータ) (2021-07-30T19:08:44Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot
classification [50.358839666165764]
本稿では,タスク適応機能サブスペース学習(TAFSSL)により,Few-Shot Learningシナリオの性能を大幅に向上させることができることを示す。
具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブおよび半教師付き FSL 設定の両方で現在の状態を改善することができることを示しています。
論文 参考訳(メタデータ) (2020-03-14T16:59:17Z) - AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning [112.95742995816367]
FSFSLと呼ばれる新しい数発のスナップショット・ラーニング・セッティングを提案する。
FSFSLでは、ソースクラスとターゲットクラスの両方に限られたトレーニングサンプルがある。
また,無関係な画像を削除するためのグラフ畳み込みネットワーク (GCN) ベースのラベルデノイング (LDN) 手法を提案する。
論文 参考訳(メタデータ) (2020-02-28T10:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。