論文の概要: RevCD -- Reversed Conditional Diffusion for Generalized Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2409.00511v1
- Date: Sat, 31 Aug 2024 17:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:18:10.773213
- Title: RevCD -- Reversed Conditional Diffusion for Generalized Zero-Shot Learning
- Title(参考訳): RevCD -- 一般化ゼロショット学習のための逆条件拡散
- Authors: William Heyden, Habib Ullah, M. Salman Siddiqui, Fadi Al Machot,
- Abstract要約: コンピュータビジョンでは、視覚的特徴と利用可能なセマンティック情報の関係を利用して、目に見えないカテゴリからの知識を未知のカテゴリに転送する。
本稿では,視覚入力から意味的特徴を生成することで,この問題を緩和する逆条件拡散モデル(RevCD)を提案する。
我々のRevCDモデルは、正弦波時間スケジュールのクロスアダマール・アドデッション埋め込みと、注意誘導型埋め込みのためのマルチヘッド視覚変換器からなる。
- 参考スコア(独自算出の注目度): 0.6792605600335813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Generalized Zero-Shot Learning (GZSL), we aim to recognize both seen and unseen categories using a model trained only on seen categories. In computer vision, this translates into a classification problem, where knowledge from seen categories is transferred to unseen categories by exploiting the relationships between visual features and available semantic information, such as text corpora or manual annotations. However, learning this joint distribution is costly and requires one-to-one training with corresponding semantic information. We present a reversed conditional Diffusion-based model (RevCD) that mitigates this issue by generating semantic features synthesized from visual inputs by leveraging Diffusion models' conditional mechanisms. Our RevCD model consists of a cross Hadamard-Addition embedding of a sinusoidal time schedule and a multi-headed visual transformer for attention-guided embeddings. The proposed approach introduces three key innovations. First, we reverse the process of generating semantic space based on visual data, introducing a novel loss function that facilitates more efficient knowledge transfer. Second, we apply Diffusion models to zero-shot learning - a novel approach that exploits their strengths in capturing data complexity. Third, we demonstrate our model's performance through a comprehensive cross-dataset evaluation. The complete code will be available on GitHub.
- Abstract(参考訳): 一般化ゼロショット学習(GZSL)では、目に見えるカテゴリーと目立たないカテゴリの両方を、目に見えるカテゴリのみに基づいて学習したモデルを用いて認識することを目的としている。
コンピュータビジョンでは、これは分類問題に変換され、視覚的特徴とテキストコーパスや手動アノテーションのような利用可能な意味情報との関係を利用して、目に見えないカテゴリーに分類される。
しかし、この共同分布の学習にはコストがかかり、対応する意味情報を1対1で学習する必要がある。
本稿では,ディフュージョンモデルの条件機構を利用して視覚入力から合成された意味的特徴を生成することで,この問題を緩和する逆条件拡散モデル(RevCD)を提案する。
我々のRevCDモデルは、正弦波時間スケジュールのクロスアダマール・アドデッション埋め込みと、注意誘導型埋め込みのためのマルチヘッド視覚変換器からなる。
提案されたアプローチは3つの重要な革新をもたらす。
まず、視覚データに基づいて意味空間を生成する過程を逆転させ、より効率的な知識伝達を容易にする新しい損失関数を導入する。
第2に、ディフュージョンモデルをゼロショット学習に適用する — データ複雑性をキャプチャする上で、その強みを活用する新しいアプローチだ。
第3に、包括的クロスデータセット評価により、モデルの性能を実証する。
完全なコードはGitHubで入手できる。
関連論文リスト
- SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - DiffAug: Enhance Unsupervised Contrastive Learning with Domain-Knowledge-Free Diffusion-based Data Augmentation [48.25619775814776]
本稿では,拡散モードに基づく正データ生成を用いた新しい教師なしコントラスト学習手法であるDiffAugを提案する。
DiffAugはセマンティックエンコーダと条件拡散モデルから構成されており、条件拡散モデルはセマンティックエンコーダに条件付された新しい正のサンプルを生成する。
実験的評価により、DiffAugは、DNA配列、視覚、および生体機能データセットのハンドデザインおよびSOTAモデルに基づく拡張手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-10T13:28:46Z) - Federated Zero-Shot Learning for Visual Recognition [55.65879596326147]
本稿では,Federated Zero-Shot Learning FedZSLフレームワークを提案する。
FedZSLは、エッジデバイス上の分散データから中心的なモデルを学ぶ。
FedZSLの有効性と堅牢性は、3つのゼロショットベンチマークデータセットで実施された広範な実験によって実証された。
論文 参考訳(メタデータ) (2022-09-05T14:49:34Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Transductive Zero-Shot Learning by Decoupled Feature Generation [30.664199050468472]
本稿では,未確認のクラスからの未表示の視覚データを利用できるトランスダクティブ・セッティングに着目する。
本稿では,現実的な視覚的特徴を生成し,意味的属性を視覚的手がかりに変換するタスクを分離することを提案する。
本研究は,提案手法の有効性を解明する上で,関連する最先端技術に対する優位性を実証するための詳細なアブレーション研究である。
論文 参考訳(メタデータ) (2021-02-05T16:17:52Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。