論文の概要: Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2404.07713v1
- Date: Thu, 11 Apr 2024 12:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:59:46.714094
- Title: Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning
- Title(参考訳): ゼロショット学習のためのプログレッシブ・セマンティック・ガイド型視覚変換器
- Authors: Shiming Chen, Wenjin Hou, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
当社のZSLViTは,3つのベンチマークデータセットに対して,大幅なパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 56.65891462413187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) recognizes the unseen classes by conducting visual-semantic interactions to transfer semantic knowledge from seen classes to unseen ones, supported by semantic information (e.g., attributes). However, existing ZSL methods simply extract visual features using a pre-trained network backbone (i.e., CNN or ViT), which fail to learn matched visual-semantic correspondences for representing semantic-related visual features as lacking of the guidance of semantic information, resulting in undesirable visual-semantic interactions. To tackle this issue, we propose a progressive semantic-guided vision transformer for zero-shot learning (dubbed ZSLViT). ZSLViT mainly considers two properties in the whole network: i) discover the semantic-related visual representations explicitly, and ii) discard the semantic-unrelated visual information. Specifically, we first introduce semantic-embedded token learning to improve the visual-semantic correspondences via semantic enhancement and discover the semantic-related visual tokens explicitly with semantic-guided token attention. Then, we fuse low semantic-visual correspondence visual tokens to discard the semantic-unrelated visual information for visual enhancement. These two operations are integrated into various encoders to progressively learn semantic-related visual representations for accurate visual-semantic interactions in ZSL. The extensive experiments show that our ZSLViT achieves significant performance gains on three popular benchmark datasets, i.e., CUB, SUN, and AWA2.
- Abstract(参考訳): ゼロショット学習(ZSL)は、視覚と意味の相互作用を行ない、目に見えるクラスから目に見えないクラスへ意味的な知識を伝達し、意味情報(例えば属性)によって支えられる。
しかし、既存のZSL手法では、事前に訓練されたネットワークバックボーン(例えばCNNやViT)を使って視覚的特徴を抽出するだけで、意味情報のガイダンスが欠如しているため、意味に関連した視覚的特徴を表現するために一致した視覚的意味的対応を学習できず、望ましくない視覚的意味的相互作用をもたらす。
この問題に対処するため,ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは主にネットワーク全体の2つの特性について検討している。
一 意味関連視覚表現を明示的に発見し、
二 意味不明の視覚情報を破棄すること。
具体的には、セマンティックエンハンスメントによる視覚・セマンティック対応を改善するために、セマンティックエンベッドドトークン学習を導入し、セマンティックエンハンスメントを用いて意味関連視覚トークンを明示的に発見する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
これら2つの操作は様々なエンコーダに統合され、ZSLにおける正確な視覚-意味的相互作用のための意味関連視覚表現を徐々に学習する。
大規模な実験により、我々のZSLViTは、CUB、SUN、AWA2という3つの人気のあるベンチマークデータセットにおいて、大幅なパフォーマンス向上を実現していることが示された。
関連論文リスト
- ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning [28.52949450389388]
Zero-shot Learning (ZSL) は、目に見えないクラスから見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。
我々はZSLを前進させるためにZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。
ZeroMambaは、SLP(Semantic-Aware Local Projection)、GRL(Global Representation Learning)、Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-08-27T08:39:47Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning [28.330268557106912]
ゼロショット学習(ZSL)の主な課題は、視覚的特徴と属性的特徴の間に潜む意味的知識を、どのように推測するかである。
本稿では,視覚的特徴と属性的特徴の間の固有意味表現を段階的に蒸留する,MSDN(Mtually Semantic Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:27:08Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z) - Visual-Semantic Transformer for Scene Text Recognition [5.323568551229187]
視覚意味変換器(VST)と協調して意味情報と視覚情報をモデル化することを提案する。
VSTはまず、視覚特徴マップから一次意味情報を明示的に抽出する。
意味情報は視覚特徴マップと結合され、擬似マルチドメインシーケンスを形成する。
論文 参考訳(メタデータ) (2021-12-02T02:59:56Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。