論文の概要: TransZero: Attribute-guided Transformer for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2112.01683v1
- Date: Fri, 3 Dec 2021 02:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:31:07.154393
- Title: TransZero: Attribute-guided Transformer for Zero-Shot Learning
- Title(参考訳): transzero:ゼロショット学習のための属性誘導トランスフォーマー
- Authors: Shiming Chen, Ziming Hong, Yang Liu, Guo-Sen Xie, Baigui Sun, Hao Li,
Qinmu Peng, Ke Lu, Xinge You
- Abstract要約: ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラスを認識することを目的としている。
本稿では,属性誘導型トランスフォーマーネットワークであるTransZeroを提案する。
- 参考スコア(独自算出の注目度): 25.55614833575993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims to recognize novel classes by transferring
semantic knowledge from seen classes to unseen ones. Semantic knowledge is
learned from attribute descriptions shared between different classes, which act
as strong priors for localizing object attributes that represent discriminative
region features, enabling significant visual-semantic interaction. Although
some attention-based models have attempted to learn such region features in a
single image, the transferability and discriminative attribute localization of
visual features are typically neglected. In this paper, we propose an
attribute-guided Transformer network, termed TransZero, to refine visual
features and learn attribute localization for discriminative visual embedding
representations in ZSL. Specifically, TransZero takes a feature augmentation
encoder to alleviate the cross-dataset bias between ImageNet and ZSL
benchmarks, and improves the transferability of visual features by reducing the
entangled relative geometry relationships among region features. To learn
locality-augmented visual features, TransZero employs a visual-semantic decoder
to localize the image regions most relevant to each attribute in a given image,
under the guidance of semantic attribute information. Then, the
locality-augmented visual features and semantic vectors are used to conduct
effective visual-semantic interaction in a visual-semantic embedding network.
Extensive experiments show that TransZero achieves the new state of the art on
three ZSL benchmarks. The codes are available at:
\url{https://github.com/shiming-chen/TransZero}.
- Abstract(参考訳): ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラスを認識することを目的としている。
意味的知識は、異なるクラス間で共有される属性記述から学習され、識別的領域の特徴を表すオブジェクト属性をローカライズし、視覚的・セマンティックな相互作用を可能にする。
注意に基づくモデルの中には、そのような領域の特徴を単一の画像で学習しようとするものもあるが、視覚特徴の伝達可能性と識別属性の局在は通常無視される。
本稿では,属性誘導型トランスフォーマーネットワークであるTransZeroを提案し,視覚的特徴を洗練し,ZSLにおける識別的視覚埋め込み表現のための属性ローカライゼーションを学習する。
具体的には、transzeroは、imagenetとzslベンチマーク間のクロスデータセットバイアスを軽減するために機能拡張エンコーダを採用し、領域特徴間の絡み合った相対幾何学関係を低減し、視覚特徴の転送性を向上させる。
局所性が示唆される視覚特徴を学ぶために、transzeroは視覚意味的デコーダを使用して、セマンティック属性情報の指導のもと、所定の画像内の各属性に最も関連のある画像領域をローカライズする。
次に、局所性提示された視覚特徴と意味ベクトルを用いて、視覚-意味埋め込みネットワークにおいて効果的な視覚-意味相互作用を行う。
広範な実験により、transzeroは3つのzslベンチマークで新しい状態を達成することが示されている。
コードは \url{https://github.com/shiming-chen/transzero} で入手できる。
関連論文リスト
- Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - High-Discriminative Attribute Feature Learning for Generalized Zero-Shot Learning [54.86882315023791]
一般化ゼロショット学習(HDAFL)のための高識別属性特徴学習(High-Discriminative Attribute Feature Learning)という革新的な手法を提案する。
HDAFLは複数の畳み込みカーネルを使用して、画像の属性と高い相関性を持つ識別領域を自動的に学習する。
また、属性間の識別能力を高めるために、Transformerベースの属性識別エンコーダを導入する。
論文 参考訳(メタデータ) (2024-04-07T13:17:47Z) - Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z) - Region Semantically Aligned Network for Zero-Shot Learning [18.18665627472823]
本研究では、未確認クラスの局所的特徴をそれらの意味属性にマッピングする地域意味ネットワーク(RSAN)を提案する。
出力の特定の領域から各属性を取得し、これらの属性を認識に活用する。
いくつかの標準ZSLデータセットの実験では、提案したRSAN法の利点が示され、最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-14T03:23:40Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。