論文の概要: Disentangling Semantic-to-visual Confusion for Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2106.08605v1
- Date: Wed, 16 Jun 2021 08:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:23:15.452183
- Title: Disentangling Semantic-to-visual Confusion for Zero-shot Learning
- Title(参考訳): ゼロショット学習のための意味と視覚の融合
- Authors: Zihan Ye, Fuyuan Hu, Fan Lyu, Linyan Li, Kaizhu Huang
- Abstract要約: 我々はDCR-GAN(Disentangling Class Representation Generative Adrial Network)と呼ばれる新しいモデルを開発する。
DCR-GANは、歪んだ表現から恩恵を受け、見えない特徴と見えない特徴の両方に対して、より現実的な分布に適合する可能性がある。
提案モデルは,4つのベンチマークデータセット上での最先端モデルよりも優れた性能を実現することができる。
- 参考スコア(独自算出の注目度): 13.610995960100869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using generative models to synthesize visual features from semantic
distribution is one of the most popular solutions to ZSL image classification
in recent years. The triplet loss (TL) is popularly used to generate realistic
visual distributions from semantics by automatically searching discriminative
representations. However, the traditional TL cannot search reliable unseen
disentangled representations due to the unavailability of unseen classes in
ZSL. To alleviate this drawback, we propose in this work a multi-modal triplet
loss (MMTL) which utilizes multimodal information to search a disentangled
representation space. As such, all classes can interplay which can benefit
learning disentangled class representations in the searched space. Furthermore,
we develop a novel model called Disentangling Class Representation Generative
Adversarial Network (DCR-GAN) focusing on exploiting the disentangled
representations in training, feature synthesis, and final recognition stages.
Benefiting from the disentangled representations, DCR-GAN could fit a more
realistic distribution over both seen and unseen features. Extensive
experiments show that our proposed model can lead to superior performance to
the state-of-the-arts on four benchmark datasets. Our code is available at
https://github.com/FouriYe/DCRGAN-TMM.
- Abstract(参考訳): セマンティクス分布から視覚的特徴を合成するために生成モデルを使用することは、近年zsl画像分類の最も一般的な解決策の1つである。
三重項損失(TL)は、識別表現を自動的に検索することで意味論から現実的な視覚分布を生成するために一般的に用いられる。
しかし、従来の TL は ZSL の未確認クラスが利用できないため、信頼できない非絡み合い表現を探索することはできない。
この欠点を軽減するために,マルチモーダル情報を用いて不整合表現空間を探索するマルチモーダル三重項損失(MMTL)を提案する。
したがって、すべてのクラスは、検索された空間で乱れたクラス表現を学ぶのに役立つ、相互作用できる。
さらに, 学習, 特徴合成, 最終認識段階における不連続表現の活用に着目し, disentangling class representation generative adversarial network (dcr-gan) と呼ばれる新しいモデルを開発した。
DCR-GANは、歪んだ表現から恩恵を受け、見えない特徴と見えない特徴の両方に対して、より現実的な分布に適合する。
大規模な実験により,提案モデルが4つのベンチマークデータセットの最先端モデルよりも優れた性能を示すことが示された。
私たちのコードはhttps://github.com/FouriYe/DCRGAN-TMMで利用可能です。
関連論文リスト
- Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - RevCD -- Reversed Conditional Diffusion for Generalized Zero-Shot Learning [0.6792605600335813]
コンピュータビジョンでは、視覚的特徴と利用可能なセマンティック情報の関係を利用して、目に見えないカテゴリからの知識を未知のカテゴリに転送する。
本稿では,視覚入力から意味的特徴を生成することで,この問題を緩和する逆条件拡散モデル(RevCD)を提案する。
我々のRevCDモデルは、正弦波時間スケジュールのクロスアダマール・アドデッション埋め込みと、注意誘導型埋め込みのためのマルチヘッド視覚変換器からなる。
論文 参考訳(メタデータ) (2024-08-31T17:37:26Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Renderers are Good Zero-Shot Representation Learners: Exploring
Diffusion Latents for Metric Learning [1.0152838128195467]
我々はShap-Eの潜伏空間の計量学習特性を測定するためのプロキシとして検索を利用する。
その結果,Shap-E表現は従来のEfficientNetベースライン表現のゼロショットよりも優れていた。
これらの結果から、3Dベースのレンダリングと生成モデルにより、自然界における識別的タスクに有用な表現が得られることが示唆された。
論文 参考訳(メタデータ) (2023-06-19T06:41:44Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - FREE: Feature Refinement for Generalized Zero-Shot Learning [86.41074134041394]
汎用ゼロショット学習(GZSL)は、視覚-意味的領域ギャップと目に見えないバイアスの問題を克服するために多くの努力を払って、大きな進歩を遂げた。
既存のほとんどのメソッドはImageNetでトレーニングされた機能抽出モデルを直接使用しており、ImageNetとGZSLベンチマークのデータセット間のバイアスを無視している。
本稿では,この問題に対処するために,汎用ゼロショット学習(FREE)のための特徴改善という,シンプルで効果的なGZSL法を提案する。
論文 参考訳(メタデータ) (2021-07-29T08:11:01Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。