論文の概要: Vision Transformer-based Feature Extraction for Generalized Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2302.00875v1
- Date: Thu, 2 Feb 2023 04:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:24:29.800035
- Title: Vision Transformer-based Feature Extraction for Generalized Zero-Shot
Learning
- Title(参考訳): 一般化ゼロショット学習のための視覚トランスフォーマーに基づく特徴抽出
- Authors: Jiseob Kim, Kyuhong Shim, Junhan Kim, Byonghyo Shim
- Abstract要約: 一般化ゼロショット学習(英: Generalized zero-shot learning, GZSL)は、画像属性を用いて、見えないクラスを特定するためのディープラーニングモデルを訓練する技法である。
本稿では,画像特徴に含まれる属性関連情報を最大化するために,視覚変換器(ViT)を利用した新しいGZSL手法を提案する。
- 参考スコア(独自算出の注目度): 24.589101099475947
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generalized zero-shot learning (GZSL) is a technique to train a deep learning
model to identify unseen classes using the image attribute. In this paper, we
put forth a new GZSL approach exploiting Vision Transformer (ViT) to maximize
the attribute-related information contained in the image feature. In ViT, the
entire image region is processed without the degradation of the image
resolution and the local image information is preserved in patch features. To
fully enjoy these benefits of ViT, we exploit patch features as well as the CLS
feature in extracting the attribute-related image feature. In particular, we
propose a novel attention-based module, called attribute attention module
(AAM), to aggregate the attribute-related information in patch features. In
AAM, the correlation between each patch feature and the synthetic image
attribute is used as the importance weight for each patch. From extensive
experiments on benchmark datasets, we demonstrate that the proposed technique
outperforms the state-of-the-art GZSL approaches by a large margin.
- Abstract(参考訳): 一般化ゼロショット学習(gzsl)は、ディープラーニングモデルをトレーニングして、イメージ属性を使用して未知のクラスを識別するテクニックである。
本稿では,画像特徴に含まれる属性関連情報を最大化するために,視覚変換器(ViT)を利用した新しいGZSL手法を提案する。
ViTでは、画像解像度を劣化させることなく全画像領域を処理し、局所画像情報をパッチ特徴として保存する。
ViTのこれらの利点を十分に享受するために、属性関連画像の特徴抽出においてパッチ機能とCLS機能を利用する。
特に,アトリビュート・アテンション・モジュール (AAM) と呼ばれる新しいアトリビュート・アテンション・アテンション・モジュールを提案し,アトリビュート関連情報をパッチ機能に集約する。
aamでは、各パッチの特徴と合成画像属性との相関を各パッチの重要性重みとして用いる。
ベンチマークデータセットの広範な実験から,提案手法が最先端のGZSLアプローチよりも大きなマージンで優れていることを示す。
関連論文リスト
- Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Semantic Feature Extraction for Generalized Zero-shot Learning [23.53412767106488]
一般化ゼロショット学習(英: Generalized zero-shot learning, GZSL)は、学習モデルに属性を使って未知のクラスを特定する手法である。
本稿では,GZSL分類性能を大幅に向上させる新しいGZSL手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T09:52:30Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。