論文の概要: Mutually Causal Semantic Distillation Network for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2603.17412v1
- Date: Wed, 18 Mar 2026 06:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.549631
- Title: Mutually Causal Semantic Distillation Network for Zero-Shot Learning
- Title(参考訳): ゼロショット学習のための相互因果意味蒸留ネットワーク
- Authors: Shiming Chen, Shuhuang Chen, Guo-Sen Xie, Xinge You,
- Abstract要約: ゼロショット学習(ZSL)は、サイドインフォメーション(属性など)によって導かれるオープンワールドにおける見えないクラスを認識することを目的としている。
その主要なタスクは、視覚的特徴と属性的特徴の間の潜在的な意味的知識を、どのように推測するかである。
ZSLの本質的かつ十分な意味表現を抽出するために,相互に基づく属性ベースセマンティックネットワーク(termed++)を提案する。
- 参考スコア(独自算出の注目度): 32.25476851030761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims to recognize the unseen classes in the open-world guided by the side-information (e.g., attributes). Its key task is how to infer the latent semantic knowledge between visual and attribute features on seen classes, and thus conducting a desirable semantic knowledge transfer from seen classes to unseen ones. Prior works simply utilize unidirectional attention within a weakly-supervised manner to learn the spurious and limited latent semantic representations, which fail to effectively discover the intrinsic semantic knowledge (e.g., attribute semantic) between visual and attribute features. To solve the above challenges, we propose a mutually causal semantic distillation network (termed MSDN++) to distill the intrinsic and sufficient semantic representations for ZSL. MSDN++ consists of an attribute$\rightarrow$visual causal attention sub-net that learns attribute-based visual features, and a visual$\rightarrow$attribute causal attention sub-net that learns visual-based attribute features. The causal attentions encourages the two sub-nets to learn causal vision-attribute associations for representing reliable features with causal visual/attribute learning. With the guidance of semantic distillation loss, the two mutual attention sub-nets learn collaboratively and teach each other throughout the training process. Extensive experiments on three widely-used benchmark datasets (e.g., CUB, SUN, AWA2, and FLO) show that our MSDN++ yields significant improvements over the strong baselines, leading to new state-of-the-art performances.
- Abstract(参考訳): ゼロショット学習(ZSL)は、サイドインフォメーション(例えば属性)によって導かれるオープンワールドにおける見えないクラスを認識することを目的としている。
その重要なタスクは、視覚的特徴と属性的特徴の間に潜伏した意味的知識を推論する方法であり、それによって、見知らぬクラスから見つからないクラスへ望ましい意味的知識を伝達する。
先行研究は、視覚的特徴と属性的特徴の間の本質的な意味的知識(例えば属性意味)を効果的に発見できない、刺激的で限定的な潜在意味的表現を学ぶために、弱教師付き方法で一方向の注意を単純に活用する。
以上の課題を解決するために,ZSLの本質的かつ十分な意味表現を蒸留するための相互因果的意味蒸留ネットワーク(MSDN++)を提案する。
MSDN++ は属性ベースの視覚特徴を学習する属性$\rightarrow$visual causal attention sub-net と、視覚ベースの属性特徴を学習する視覚$\rightarrow$attribute causal attention sub-net で構成されている。
因果的注意は、2つのサブネットに因果的視覚・属性関連を学習させ、因果的視覚・属性学習による信頼性のある特徴を表現する。
セマンティック蒸留損失のガイダンスにより、2つの相互注意サブネットは協調的に学習し、トレーニングプロセスを通して相互に教え合う。
広く使用されている3つのベンチマークデータセット(例えば、CUB、SUN、AWA2、FLO)に対する大規模な実験は、MSDN++が強力なベースラインよりも大幅に改善され、新たな最先端のパフォーマンスがもたらされることを示している。
関連論文リスト
- Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning [48.46511584490582]
ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。
分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げる。
これらの課題を克服するために、双方向のクロスモーダルZSLアプローチCRESTを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:19:39Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning [28.330268557106912]
ゼロショット学習(ZSL)の主な課題は、視覚的特徴と属性的特徴の間に潜む意味的知識を、どのように推測するかである。
本稿では,視覚的特徴と属性的特徴の間の固有意味表現を段階的に蒸留する,MSDN(Mtually Semantic Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。