論文の概要: ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2408.14868v1
- Date: Tue, 27 Aug 2024 08:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:33:22.598667
- Title: ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning
- Title(参考訳): ZeroMamba: ゼロショット学習のためのビジュアルステートスペースモデル
- Authors: Wenjin Hou, Dingjie Fu, Kun Li, Shiming Chen, Hehe Fan, Yi Yang,
- Abstract要約: Zero-shot Learning (ZSL) は、目に見えないクラスから見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。
我々はZSLを前進させるためにZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。
ZeroMambaは、SLP(Semantic-Aware Local Projection)、GRL(Global Representation Learning)、Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 28.52949450389388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims to recognize unseen classes by transferring semantic knowledge from seen classes to unseen ones, guided by semantic information. To this end, existing works have demonstrated remarkable performance by utilizing global visual features from Convolutional Neural Networks (CNNs) or Vision Transformers (ViTs) for visual-semantic interactions. Due to the limited receptive fields of CNNs and the quadratic complexity of ViTs, however, these visual backbones achieve suboptimal visual-semantic interactions. In this paper, motivated by the visual state space model (i.e., Vision Mamba), which is capable of capturing long-range dependencies and modeling complex visual dynamics, we propose a parameter-efficient ZSL framework called ZeroMamba to advance ZSL. Our ZeroMamba comprises three key components: Semantic-aware Local Projection (SLP), Global Representation Learning (GRL), and Semantic Fusion (SeF). Specifically, SLP integrates semantic embeddings to map visual features to local semantic-related representations, while GRL encourages the model to learn global semantic representations. SeF combines these two semantic representations to enhance the discriminability of semantic features. We incorporate these designs into Vision Mamba, forming an end-to-end ZSL framework. As a result, the learned semantic representations are better suited for classification. Through extensive experiments on four prominent ZSL benchmarks, ZeroMamba demonstrates superior performance, significantly outperforming the state-of-the-art (i.e., CNN-based and ViT-based) methods under both conventional ZSL (CZSL) and generalized ZSL (GZSL) settings. Code is available at: https://anonymous.4open.science/r/ZeroMamba.
- Abstract(参考訳): Zero-shot Learning (ZSL) は、目に見えないクラスから目に見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。
この目的のために、既存の研究は、畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)のグローバルな視覚的特徴を視覚と意味の相互作用に活用することで、顕著なパフォーマンスを誇示している。
しかし、CNNの受容野が限られており、ViTsの二次的な複雑さのため、これらの視覚的バックボーンは、最適な視覚・セマンティック相互作用をもたらす。
本稿では,視覚状態空間モデル(Vision Mamba)をモチベーションとして,長距離依存を捉え,複雑な視覚力学をモデル化し,ZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。
我々のZeroMambaは,SLP(Semantic-aware Local Projection),GRL(Global Representation Learning),Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されています。
具体的には、SLPはセマンティック埋め込みを統合し、視覚的特徴を局所的なセマンティック関連表現にマッピングし、GRLはグローバルなセマンティック表現を学ぶようモデルに推奨する。
SeFはこれらの2つの意味表現を組み合わせることで、意味的特徴の識別性を高める。
これらの設計をVision Mambaに組み込み、エンドツーエンドのZSLフレームワークを構築します。
結果として、学習された意味表現は分類に適している。
4つのZSLベンチマークの広範な実験を通じて、ZeroMambaは優れた性能を示し、従来のZSL (CZSL) と一般化ZSL (GZSL) の両方で最先端(CNNベースとVTベース)の手法を大幅に上回っている。
コードは、https://anonymous.4open.science/r/ZeroMambaで入手できる。
関連論文リスト
- Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning [56.16593809016167]
本稿では,視覚・視覚の正確なマッピングを学習するために,ジェネレータを高速化するビジュアル拡張動的セマンティックプロトタイプ(VADS)を提案する。
VADSは2つのモジュールから構成される:(1)視覚認識ドメイン知識学習モジュール(VDKL)は視覚特徴の局所バイアスとグローバル先行を学習し、純粋なガウス雑音を置き換え、よりリッチな事前ノイズ情報を提供する;(2)視覚指向セマンティックアップダクションモジュール(VOSU)は、サンプルの視覚表現に従ってセマンティックプロトタイプを更新する。
論文 参考訳(メタデータ) (2024-04-23T07:39:09Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - FREE: Feature Refinement for Generalized Zero-Shot Learning [86.41074134041394]
汎用ゼロショット学習(GZSL)は、視覚-意味的領域ギャップと目に見えないバイアスの問題を克服するために多くの努力を払って、大きな進歩を遂げた。
既存のほとんどのメソッドはImageNetでトレーニングされた機能抽出モデルを直接使用しており、ImageNetとGZSLベンチマークのデータセット間のバイアスを無視している。
本稿では,この問題に対処するために,汎用ゼロショット学習(FREE)のための特徴改善という,シンプルで効果的なGZSL法を提案する。
論文 参考訳(メタデータ) (2021-07-29T08:11:01Z) - What Remains of Visual Semantic Embeddings [0.618778092044887]
標準のImageNetベンチマークにおける構造欠陥を回避するため、ZSLタスクにタイレッドイメージネットの分割を導入する。
我々は,ZSLのための統合フレームワークを構築し,コントラスト学習を事前学習とし,セマンティックな情報漏洩を保証している。
我々の研究は、意味推論が決定的なZSL設定上で視覚的セマンティック埋め込みモデルを評価するのに公平である。
論文 参考訳(メタデータ) (2021-07-26T06:55:11Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Zero-Shot Learning Based on Knowledge Sharing [0.0]
Zero-Shot Learning(ZSL)は、ごくわずかなトレーニングデータで分類問題を解決することを目的とした新しい研究です。
本稿では,意味的特徴の表現を充実させるために,知識共有(KS)を導入する。
KSをベースとして,実際の視覚特徴に非常に近い意味的特徴から擬似視覚特徴を生成するために,生成的対向ネットワークを適用した。
論文 参考訳(メタデータ) (2021-02-26T06:43:29Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Leveraging Seen and Unseen Semantic Relationships for Generative
Zero-Shot Learning [14.277015352910674]
新たな意味正規化損失(SR-Loss)を取り入れた知識伝達を明示的に行う生成モデルを提案する。
7つのベンチマークデータセットの実験は、従来の最先端アプローチと比較してLsrGANの優位性を示している。
論文 参考訳(メタデータ) (2020-07-19T01:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。