論文の概要: DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2207.01328v1
- Date: Mon, 4 Jul 2022 11:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:32:43.024180
- Title: DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning
- Title(参考訳): duet:コントラストゼロショット学習のためのクロスモーダルセマンティクスグラウンド
- Authors: Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Wen Zhang, Yin
Fang, Jeff Z. Pan, Wenting Song, Huajun Chen
- Abstract要約: 本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
- 参考スコア(独自算出の注目度): 37.48292304239107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims to predict unseen classes whose samples have
never appeared during training, often utilizing additional semantic information
(a.k.a. side information) to bridge the training (seen) classes and the unseen
classes. One of the most effective and widely used semantic information for
zero-shot image classification are attributes which are annotations for
class-level visual characteristics. However, due to the shortage of
fine-grained annotations, the attribute imbalance and co-occurrence, the
current methods often fail to discriminate those subtle visual distinctions
between images, which limits their performances. In this paper, we present a
transformer-based end-to-end ZSL method named DUET, which integrates latent
semantic knowledge from the pretrained language models (PLMs) via a
self-supervised multi-modal learning paradigm. Specifically, we (1) developed a
cross-modal semantic grounding network to investigate the model's capability of
disentangling semantic attributes from the images, (2) applied an
attribute-level contrastive learning strategy to further enhance the model's
discrimination on fine-grained visual characteristics against the attribute
co-occurrence and imbalance, and (3) proposed a multi-task learning policy for
considering multi-model objectives. With extensive experiments on three
standard ZSL benchmarks and a knowledge graph equipped ZSL benchmark, we find
that DUET can often achieve state-of-the-art performance, its components are
effective and its predictions are interpretable.
- Abstract(参考訳): Zero-shot Learning (ZSL) は、トレーニング中にサンプルが存在しない未確認クラスを予測することを目的としており、しばしばトレーニング(見えないクラス)と未確認クラスをブリッジするために追加のセマンティック情報(サイド情報)を利用する。
ゼロショット画像分類のための最も効果的で広く使われているセマンティック情報は、クラスレベルの視覚的特徴に対するアノテーションである属性である。
しかし、微妙なアノテーションの不足、属性の不均衡と共起のため、現在の手法では画像間の微妙な視覚的区別を識別できないことが多く、性能が制限されている。
本稿では,自己教師付きマルチモーダル学習パラダイムを用いて,事前学習言語モデル(plms)からの潜在意味知識を統合した,トランスフォーマティブ型エンドツーエンドzsl法duetを提案する。
具体的には,画像からセマンティック属性を分離するモデルの能力を調べるためのクロスモーダルなセマンティックグラウンドネットワークを開発し,(2)属性共起・不均衡に対する微粒な視覚特性に対するモデルの識別を強化するために属性レベルのコントラスト学習戦略を適用し,(3)マルチモデル目的を考慮したマルチタスク学習ポリシーを提案した。
3つの標準ZSLベンチマークと知識グラフを備えたZSLベンチマークの広範な実験により、DUETはしばしば最先端の性能を達成でき、そのコンポーネントは有効であり、予測は解釈可能であることがわかった。
関連論文リスト
- Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning [48.46511584490582]
ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。
分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げる。
これらの課題を克服するために、双方向のクロスモーダルZSLアプローチCRESTを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:19:39Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Zero-Shot Learning by Harnessing Adversarial Samples [52.09717785644816]
本稿では,HAS(Harnessing Adversarial Samples)によるZSL(Zero-Shot Learning)アプローチを提案する。
HASは3つの重要な側面を考慮に入れた敵の訓練を通じてZSLを前進させる。
本稿では,ZSLと一般化ゼロショット学習(GZSL)の両シナリオにおいて,敵対的サンプルアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-01T06:19:13Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning [11.66422653137002]
本稿では,ゼロショット学習の課題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。
本手法では,視覚変換器に適応したアテンション機構を用いて,画像から小さなパッチに分割することで識別属性をキャプチャし,学習する。
論文 参考訳(メタデータ) (2021-07-30T19:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。