論文の概要: TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2112.08643v1
- Date: Thu, 16 Dec 2021 05:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:29:18.967684
- Title: TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning
- Title(参考訳): transzero++:ゼロショット学習のためのクロス属性誘導トランスフォーマー
- Authors: Shiming Chen, Ziming Hong, Guo-Sen Xie, Jian Zhao, Xinge You,
Shuicheng Yan, and Ling Shao
- Abstract要約: ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
- 参考スコア(独自算出の注目度): 119.43299939907685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) tackles the novel class recognition problem by
transferring semantic knowledge from seen classes to unseen ones. Existing
attention-based models have struggled to learn inferior region features in a
single image by solely using unidirectional attention, which ignore the
transferability and discriminative attribute localization of visual features.
In this paper, we propose a cross attribute-guided Transformer network, termed
TransZero++, to refine visual features and learn accurate attribute
localization for semantic-augmented visual embedding representations in ZSL.
TransZero++ consists of an attribute$\rightarrow$visual Transformer sub-net
(AVT) and a visual$\rightarrow$attribute Transformer sub-net (VAT).
Specifically, AVT first takes a feature augmentation encoder to alleviate the
cross-dataset problem, and improves the transferability of visual features by
reducing the entangled relative geometry relationships among region features.
Then, an attribute$\rightarrow$visual decoder is employed to localize the image
regions most relevant to each attribute in a given image for attribute-based
visual feature representations. Analogously, VAT uses the similar feature
augmentation encoder to refine the visual features, which are further applied
in visual$\rightarrow$attribute decoder to learn visual-based attribute
features. By further introducing semantical collaborative losses, the two
attribute-guided transformers teach each other to learn semantic-augmented
visual embeddings via semantical collaborative learning. Extensive experiments
show that TransZero++ achieves the new state-of-the-art results on three
challenging ZSL benchmarks. The codes are available at:
\url{https://github.com/shiming-chen/TransZero_pp}.
- Abstract(参考訳): ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、視覚特徴の伝達可能性や識別属性のローカライズを無視する一方向注意のみを用いて、単一の画像で劣る領域の特徴を学ぶのに苦労している。
本稿では,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案し,視覚的特徴を洗練し,ZSLにおける意味拡張型視覚埋め込み表現の正確な属性ローカライゼーションを学習する。
TransZero++は属性$\rightarrow$visual Transformer sub-net (AVT)とビジュアル$\rightarrow$attribute Transformer sub-net (VAT)で構成される。
具体的には、AVTはまず、クロスデータセット問題を軽減するために機能拡張エンコーダを採用し、領域特徴間の絡み合った相対幾何学関係を小さくすることで、視覚特徴の伝達性を向上させる。
次に属性$\rightarrow$visualデコーダを使用して、属性ベースの視覚的特徴表現のための所定の画像内の各属性に最も関連する画像領域をローカライズする。
同様に、vatは類似の機能拡張エンコーダを使用してビジュアル機能を洗練し、visual$\rightarrow$attributeデコーダでさらにビジュアルベースの属性機能を学ぶ。
意味的協調的損失の導入により、2つの属性誘導トランスフォーマーは相互に、意味的協調学習を通じて意味論的視覚埋め込みを学ぶことを教える。
広範な実験により、transzero++は3つの挑戦的なzslベンチマークで新たな最先端結果を達成していることが示された。
コードは \url{https://github.com/shiming-chen/transzero_pp} で入手できる。
関連論文リスト
- Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Vision Transformer-based Feature Extraction for Generalized Zero-Shot
Learning [24.589101099475947]
一般化ゼロショット学習(英: Generalized zero-shot learning, GZSL)は、画像属性を用いて、見えないクラスを特定するためのディープラーニングモデルを訓練する技法である。
本稿では,画像特徴に含まれる属性関連情報を最大化するために,視覚変換器(ViT)を利用した新しいGZSL手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:52:08Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning [28.330268557106912]
ゼロショット学習(ZSL)の主な課題は、視覚的特徴と属性的特徴の間に潜む意味的知識を、どのように推測するかである。
本稿では,視覚的特徴と属性的特徴の間の固有意味表現を段階的に蒸留する,MSDN(Mtually Semantic Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:27:08Z) - TransZero: Attribute-guided Transformer for Zero-Shot Learning [25.55614833575993]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラスを認識することを目的としている。
本稿では,属性誘導型トランスフォーマーネットワークであるTransZeroを提案する。
論文 参考訳(メタデータ) (2021-12-03T02:39:59Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。