論文の概要: Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning
- arxiv url: http://arxiv.org/abs/2007.07757v2
- Date: Mon, 30 Nov 2020 11:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:09:06.949750
- Title: Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning
- Title(参考訳): 一般化ゼロショット学習のための2レベル対向的ビジュアルセマンティック結合
- Authors: Shivam Chandhok and Vineeth N Balasubramanian
- Abstract要約: トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
- 参考スコア(独自算出の注目度): 21.89909688056478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of generative zero-shot methods mainly depends on the quality
of generated features and how well the model facilitates knowledge transfer
between visual and semantic domains. The quality of generated features is a
direct consequence of the ability of the model to capture the several modes of
the underlying data distribution. To address these issues, we propose a new
two-level joint maximization idea to augment the generative network with an
inference network during training which helps our model capture the several
modes of the data and generate features that better represent the underlying
data distribution. This provides strong cross-modal interaction for effective
transfer of knowledge between visual and semantic domains. Furthermore,
existing methods train the zero-shot classifier either on generate synthetic
image features or latent embeddings produced by leveraging representation
learning. In this work, we unify these paradigms into a single model which in
addition to synthesizing image features, also utilizes the representation
learning capabilities of the inference network to provide discriminative
features for the final zero-shot recognition task. We evaluate our approach on
four benchmark datasets i.e. CUB, FLO, AWA1 and AWA2 against several
state-of-the-art methods, and show its performance. We also perform ablation
studies to analyze and understand our method more carefully for the Generalized
Zero-shot Learning task.
- Abstract(参考訳): 生成ゼロショット法の性能は、生成した特徴の品質と、そのモデルが視覚領域と意味領域間の知識伝達をいかに促進するかに大きく依存する。
生成された機能の品質は、モデルが基盤となるデータ分散の複数のモードをキャプチャする能力の直接の結果である。
そこで本研究では,学習中に生成ネットワークを推論ネットワークで強化し,モデルがデータの複数のモードをキャプチャし,基礎となるデータ分布をよりよく表現する機能を生成するための,新たな2段階統合最大化手法を提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
さらに、既存の手法では、表現学習を利用して合成画像特徴を生成するか、潜在埋め込みを生成するためにゼロショット分類器を訓練している。
本研究では,これらのパラダイムを,画像特徴の合成に加えて,推論ネットワークの表現学習機能を利用して,最終的なゼロショット認識タスクの識別機能を提供する単一モデルに統一する。
我々は,cub,flo,awa1,awa2の4つのベンチマークデータセットに対するアプローチを評価し,その性能を示す。
また,一般ゼロショット学習タスクにおいて,この手法をより慎重に分析し,理解するためにアブレーション研究を行う。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Generative Model-based Feature Knowledge Distillation for Action
Recognition [11.31068233536815]
本稿では,軽量学生モデルの学習のための生成モデルを用いた,革新的な知識蒸留フレームワークについて紹介する。
提案手法の有効性は,多種多様な人気データセットに対する総合的な実験によって実証される。
論文 参考訳(メタデータ) (2023-12-14T03:55:29Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Information Maximization Clustering via Multi-View Self-Labelling [9.947717243638289]
本稿では,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。
これは、離散表現をネットを通じて自己監督パラダイムに統合することで達成される。
実験の結果,提案手法は,平均精度89.1%,49.0%で最先端技術を上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-12T16:04:41Z) - A Joint Representation Learning and Feature Modeling Approach for
One-class Recognition [15.606362608483316]
これら2つのアプローチにはそれぞれ独自の制限があり、この2つを組み合わせることでより効果的な解が得られます。
提案手法は,生成フレームワークと一クラス分類法を組み合わせたものである。
提案手法の有効性を3つの一級分類課題で検証し,その結果を得た。
論文 参考訳(メタデータ) (2021-01-24T19:51:46Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。