論文の概要: SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2312.13100v1
- Date: Wed, 20 Dec 2023 15:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:17:20.216306
- Title: SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning
- Title(参考訳): SEER-ZSL: 汎用ゼロショット学習のための意味エンコーダ強化表現
- Authors: William Heyden, Habib Ullah, M. Salman Siddiqui, Fadi Al Machot
- Abstract要約: 一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
- 参考スコア(独自算出の注目度): 0.7420433640907689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized Zero-Shot Learning (GZSL) recognizes unseen classes by
transferring knowledge from the seen classes, depending on the inherent
interactions between visual and semantic data. However, the discrepancy between
well-prepared training data and unpredictable real-world test scenarios remains
a significant challenge. This paper introduces a dual strategy to address the
generalization gap. Firstly, we incorporate semantic information through an
innovative encoder. This encoder effectively integrates class-specific semantic
information by targeting the performance disparity, enhancing the produced
features to enrich the semantic space for class-specific attributes. Secondly,
we refine our generative capabilities using a novel compositional loss
function. This approach generates discriminative classes, effectively
classifying both seen and unseen classes. In addition, we extend the
exploitation of the learned latent space by utilizing controlled semantic
inputs, ensuring the robustness of the model in varying environments. This
approach yields a model that outperforms the state-of-the-art models in terms
of both generalization and diverse settings, notably without requiring
hyperparameter tuning or domain-specific adaptations. We also propose a set of
novel evaluation metrics to provide a more detailed assessment of the
reliability and reproducibility of the results. The complete code is made
available on https://github.com/william-heyden/SEER-ZeroShotLearning/.
- Abstract(参考訳): 一般化ゼロショット学習(GZSL)は、視覚的データと意味的データ間の固有の相互作用によって、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
しかし、十分に準備されたトレーニングデータと予測できない実世界のテストシナリオの相違は依然として大きな課題である。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
まず、革新的なエンコーダを通して意味情報を組み込む。
このエンコーダは、性能格差をターゲットとして、クラス固有のセマンティック情報を効果的に統合し、クラス固有の属性のセマンティックスペースを強化する。
第2に,新規な合成損失関数を用いて生成能力を改良する。
このアプローチは識別クラスを生成し、見られているクラスと見当たらないクラスの両方を効果的に分類する。
さらに,制御された意味入力を活用し,様々な環境におけるモデルのロバスト性を確保することにより,学習潜在空間の活用を拡大する。
このアプローチは、一般化と多様な設定の両方において最先端モデルを上回るモデルを生み出し、特にハイパーパラメータチューニングやドメイン固有の適応を必要としない。
また,実験結果の信頼性と再現性について,より詳細な評価を行うための新しい評価指標を提案する。
完全なコードはhttps://github.com/william-heyden/seer-zeroshotlearning/で入手できる。
関連論文リスト
- Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Zero-Shot Learning Based on Knowledge Sharing [0.0]
Zero-Shot Learning(ZSL)は、ごくわずかなトレーニングデータで分類問題を解決することを目的とした新しい研究です。
本稿では,意味的特徴の表現を充実させるために,知識共有(KS)を導入する。
KSをベースとして,実際の視覚特徴に非常に近い意味的特徴から擬似視覚特徴を生成するために,生成的対向ネットワークを適用した。
論文 参考訳(メタデータ) (2021-02-26T06:43:29Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Generative Model-driven Structure Aligning Discriminative Embeddings for
Transductive Zero-shot Learning [21.181715602603436]
本稿では、潜在空間における視覚的および意味的なデータを整列する投影関数を学習するためのニューラルネットワークに基づくモデルを提案する。
AWA1, AWA2, CUB, SUN, FLOなどの標準ベンチマークデータセットにおいて, 優れた性能を示す。
また,ラベル付きデータ構造が極めて少ない場合においても,モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-05-09T18:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。