論文の概要: Semantics-Guided Contrastive Network for Zero-Shot Object detection
- arxiv url: http://arxiv.org/abs/2109.06062v1
- Date: Sat, 4 Sep 2021 03:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-19 16:13:14.248272
- Title: Semantics-Guided Contrastive Network for Zero-Shot Object detection
- Title(参考訳): ゼロショット物体検出のための意味誘導コントラストネットワーク
- Authors: Caixia Yan, Xiaojun Chang, Minnan Luo, Huan Liu, Xiaoqin Zhang, and
Qinghua Zheng
- Abstract要約: ゼロショット物体検出(ZSD)はコンピュータビジョンにおける新しい課題である。
ゼロショット検出の領域にコントラスト学習機構をもたらすフレームワークであるContrastZSDを開発した。
本手法は,ZSDタスクと一般化ZSDタスクの両方において,従来の最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 67.61512036994458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot object detection (ZSD), the task that extends conventional
detection models to detecting objects from unseen categories, has emerged as a
new challenge in computer vision. Most existing approaches tackle the ZSD task
with a strict mapping-transfer strategy, which may lead to suboptimal ZSD
results: 1) the learning process of those models ignores the available unseen
class information, and thus can be easily biased towards the seen categories;
2) the original visual feature space is not well-structured and lack of
discriminative information. To address these issues, we develop a novel
Semantics-Guided Contrastive Network for ZSD, named ContrastZSD, a detection
framework that first brings contrastive learning mechanism into the realm of
zero-shot detection. Particularly, ContrastZSD incorporates two
semantics-guided contrastive learning subnets that contrast between
region-category and region-region pairs respectively. The pairwise contrastive
tasks take advantage of additional supervision signals derived from both ground
truth label and pre-defined class similarity distribution. Under the guidance
of those explicit semantic supervision, the model can learn more knowledge
about unseen categories to avoid the bias problem to seen concepts, while
optimizing the data structure of visual features to be more discriminative for
better visual-semantic alignment. Extensive experiments are conducted on two
popular benchmarks for ZSD, i.e., PASCAL VOC and MS COCO. Results show that our
method outperforms the previous state-of-the-art on both ZSD and generalized
ZSD tasks.
- Abstract(参考訳): ゼロショットオブジェクト検出(ZSD)は、従来の検出モデルを拡張して、見えないカテゴリからオブジェクトを検出するタスクである。
既存のほとんどのアプローチは、厳密なマッピング・トランスファー戦略でZSDタスクに取り組む。
1)これらのモデルの学習プロセスは、利用可能な未確認クラス情報を無視するので、見やすいカテゴリーに偏りやすい。
2)本来の視覚的特徴空間は十分に構造化されておらず,識別情報がない。
これらの問題に対処するために,我々は,ゼロショット検出の領域にコントラスト学習機構を最初に導入する検出フレームワークであるcon contrastzsdという,zsdのための新しい意味論的ガイド付きコントラストネットワークを開発した。
特に、ContrastZSDには2つの意味論的指導型コントラスト学習サブネットが組み込まれている。
相互に対照的なタスクは、基底真理ラベルと定義済みのクラス類似度分布の両方から導かれる追加の監視信号を利用する。
これらの明示的なセマンティック監視の指導の下で、モデルは目に見えないカテゴリに関するより多くの知識を学習し、視覚的特徴のデータ構造をより良い視覚的セマンティックアライメントのためにより差別的に最適化する。
ZSDの2つの一般的なベンチマーク、すなわちPASCAL VOCとMS COCOで大規模な実験が行われた。
その結果,本手法はZSDタスクと一般化ZSDタスクの両方において,従来の最先端技術よりも優れていた。
関連論文リスト
- Joint Salient Object Detection and Camouflaged Object Detection via
Uncertainty-aware Learning [47.253370009231645]
本稿では,SOD と Camouflaged Object Detection (COD) の矛盾する情報を探るため,不確実性を考慮した学習パイプラインを提案する。
我々の解決策は、最先端の性能と情報的不確実性の推定の両方につながる。
論文 参考訳(メタデータ) (2023-07-10T15:49:37Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Resolving Semantic Confusions for Improved Zero-Shot Detection [6.72910827751713]
本稿では,クラス間の相違度を認識する三重項損失を考慮した生成モデルを提案する。
クラスの生成した視覚的サンプルが、自身のセマンティクスに高度に対応していることを保証するために、サイクリック一貫性損失も実施される。
論文 参考訳(メタデータ) (2022-12-12T18:11:48Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Dual Contrastive Learning for General Face Forgery Detection [64.41970626226221]
本稿では,正と負のペアデータを構成するDCL (Dual Contrastive Learning) という新しい顔偽造検出フレームワークを提案する。
本研究は, 事例内コントラスト学習(Intra-ICL)において, 偽造顔における局所的内容の不整合に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-27T05:44:40Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Attribute-Induced Bias Eliminating for Transductive Zero-Shot Learning [144.94728981314717]
本稿では,トランスダクティブZSLのためのAttribute-induced Bias Elimination (AIBE)モジュールを提案する。
2つのドメイン間の視覚的バイアスに対して、Mean-Teacherモジュールは2つのドメイン間の視覚的表現の相違をブリッジするために最初に利用される。
注目グラフ属性の埋め込みは、目に見えないカテゴリと見えないカテゴリ間の意味バイアスを減らすために提案される。
最後に、目に見えない領域のセマンティック・視覚的バイアスに対して、目に見えないセマンティックアライメント制約は、教師なしの方法で視覚空間とセマンティック空間を整列するように設計されている。
論文 参考訳(メタデータ) (2020-05-31T02:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。