論文の概要: MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2203.03137v1
- Date: Mon, 7 Mar 2022 05:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:17:25.209315
- Title: MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning
- Title(参考訳): MSDN: ゼロショット学習のための相互意味蒸留ネットワーク
- Authors: Shiming Chen, Ziming Hong, Guo-Sen Xie, Wenhan Wang, Qinmu Peng, Kai
Wang, Jian Zhao, Xinge You
- Abstract要約: ゼロショット学習(ZSL)の主な課題は、視覚的特徴と属性的特徴の間に潜む意味的知識を、どのように推測するかである。
本稿では,視覚的特徴と属性的特徴の間の固有意味表現を段階的に蒸留する,MSDN(Mtually Semantic Distillation Network)を提案する。
- 参考スコア(独自算出の注目度): 28.330268557106912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key challenge of zero-shot learning (ZSL) is how to infer the latent
semantic knowledge between visual and attribute features on seen classes, and
thus achieving a desirable knowledge transfer to unseen classes. Prior works
either simply align the global features of an image with its associated class
semantic vector or utilize unidirectional attention to learn the limited latent
semantic representations, which could not effectively discover the intrinsic
semantic knowledge e.g., attribute semantics) between visual and attribute
features. To solve the above dilemma, we propose a Mutually Semantic
Distillation Network (MSDN), which progressively distills the intrinsic
semantic representations between visual and attribute features for ZSL. MSDN
incorporates an attribute$\rightarrow$visual attention sub-net that learns
attribute-based visual features, and a visual$\rightarrow$attribute attention
sub-net that learns visual-based attribute features. By further introducing a
semantic distillation loss, the two mutual attention sub-nets are capable of
learning collaboratively and teaching each other throughout the training
process. The proposed MSDN yields significant improvements over the strong
baselines, leading to new state-of-the-art performances on three popular
challenging benchmarks, i.e., CUB, SUN, and AWA2. Our codes have been available
at: \url{https://github.com/shiming-chen/MSDN}.
- Abstract(参考訳): ゼロショット学習(zsl)の鍵となる課題は、目に見えるクラスにおける視覚的特徴と属性特徴の間の潜在的な意味的知識をどのように推測するかである。
以前の研究は、画像のグローバルな特徴と関連するクラスセマンティックベクターを結びつけるか、あるいは一方向の注意を使って限定された潜在意味表現を学ぶかのいずれかであり、視覚的特徴と属性的特徴の間に固有の意味知識(属性セマンティクスなど)を効果的に発見できなかった。
上記のジレンマを解決するために,ZSL の視覚的特徴と属性的特徴の間の固有意味表現を段階的に蒸留する Mutually Semantic Distillation Network (MSDN) を提案する。
MSDNには属性ベースの視覚特徴を学習する属性$\rightarrow$visual attentionサブネットと、視覚ベースの属性特徴を学習するビジュアル$\rightarrow$attribute attentionサブネットが含まれている。
さらに、セマンティック蒸留損失を導入することにより、2つの相互注意サブネットが協調的に学習し、訓練過程を通じて相互に指導することができる。
提案されたMSDNは、強力なベースラインよりも大幅に改善され、CUB、SUN、AWA2という3つの人気のある挑戦的ベンチマークにおいて、最先端のパフォーマンスが新たに導入された。
私たちのコードは、 \url{https://github.com/shiming-chen/msdn} で利用可能です。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z) - TransZero: Attribute-guided Transformer for Zero-Shot Learning [25.55614833575993]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラスを認識することを目的としている。
本稿では,属性誘導型トランスフォーマーネットワークであるTransZeroを提案する。
論文 参考訳(メタデータ) (2021-12-03T02:39:59Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。
本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。
IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-03T12:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。