論文の概要: Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2303.15322v1
- Date: Mon, 27 Mar 2023 15:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:36:52.141520
- Title: Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning
- Title(参考訳): 一般化ゼロショット学習のためのプログレッシブセマンティクスとビジュアルの相互適応
- Authors: Man Liu, Feng Li, Chunjie Zhang, Yunchao Wei, Huihui Bai, Yao Zhao
- Abstract要約: 一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
- 参考スコア(独自算出の注目度): 74.48337375174297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Zero-Shot Learning (GZSL) identifies unseen categories by
knowledge transferred from the seen domain, relying on the intrinsic
interactions between visual and semantic information. Prior works mainly
localize regions corresponding to the sharing attributes. When various visual
appearances correspond to the same attribute, the sharing attributes inevitably
introduce semantic ambiguity, hampering the exploration of accurate
semantic-visual interactions. In this paper, we deploy the dual semantic-visual
transformer module (DSVTM) to progressively model the correspondences between
attribute prototypes and visual features, constituting a progressive
semantic-visual mutual adaption (PSVMA) network for semantic disambiguation and
knowledge transferability improvement. Specifically, DSVTM devises an
instance-motivated semantic encoder that learns instance-centric prototypes to
adapt to different images, enabling the recast of the unmatched semantic-visual
pair into the matched one. Then, a semantic-motivated instance decoder
strengthens accurate cross-domain interactions between the matched pair for
semantic-related instance adaption, encouraging the generation of unambiguous
visual representations. Moreover, to mitigate the bias towards seen classes in
GZSL, a debiasing loss is proposed to pursue response consistency between seen
and unseen predictions. The PSVMA consistently yields superior performances
against other state-of-the-art methods. Code will be available at:
https://github.com/ManLiuCoder/PSVMA.
- Abstract(参考訳): 一般化ゼロショット学習(GZSL)は、視覚情報と意味情報の間の本質的な相互作用に頼って、目に見えないカテゴリを、目に見えない領域から移行した知識によって識別する。
以前の研究は主に共有属性に対応する領域をローカライズする。
様々な視覚的外観が同じ属性に対応する場合、共有属性は必然的に意味的曖昧さを導入し、正確な意味的・視覚的相互作用の探索を妨げる。
本稿では,2つの意味的視覚変換モジュール(DSVTM)を配置し,属性のプロトタイプと視覚的特徴の対応性を段階的にモデル化し,意味的曖昧さと知識伝達性向上のための意味的視覚的相互適応(PSVMA)ネットワークを構成する。
具体的には、DSVTMは、インスタンス中心のプロトタイプを異なるイメージに適応させるために学習する、インスタンス駆動セマンティックエンコーダを考案した。
セマンティクスモチベーションインスタンスデコーダは、マッチしたペア間の正確なクロスドメインインタラクションを、セマンティクス関連インスタンス適応のために強化し、あいまいな視覚的表現の生成を促進する。
さらに,gzslにおける視クラスに対するバイアスを軽減するために,視クラスと視クラス間の応答一貫性を追求するためにデバイアス損失が提案されている。
PSVMAは、他の最先端の手法と比較して一貫して優れた性能が得られる。
コードはhttps://github.com/manliucoder/psvmaで入手できる。
関連論文リスト
- PSVMA+: Exploring Multi-granularity Semantic-visual Adaption for Generalized Zero-shot Learning [116.33775552866476]
一般化ゼロショット学習(GZSL)は、目に見えない領域の知識を用いて、見えないものを識別する試みである。
GZSLは、属性の多様性とインスタンスの多様性により、視覚的セマンティックな対応が不十分である。
本稿では,不整合の解消に十分な視覚要素を収集できる多粒性プログレッシブ・セマンティック・視覚適応ネットワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T12:49:33Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。