論文の概要: Siamese Contrastive Embedding Network for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2206.14475v1
- Date: Wed, 29 Jun 2022 09:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:30:35.826953
- Title: Siamese Contrastive Embedding Network for Compositional Zero-Shot
Learning
- Title(参考訳): 合成ゼロショット学習のためのシームズコントラスト埋め込みネットワーク
- Authors: Xiangyu Li, Xu Yang, Kun Wei, Cheng Deng, Muli Yang
- Abstract要約: 合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。
本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。
提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 76.13542095170911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize unseen compositions
formed from seen state and object during training. Since the same state may be
various in the visual appearance while entangled with different objects, CZSL
is still a challenging task. Some methods recognize state and object with two
trained classifiers, ignoring the impact of the interaction between object and
state; the other methods try to learn the joint representation of the
state-object compositions, leading to the domain gap between seen and unseen
composition sets. In this paper, we propose a novel Siamese Contrastive
Embedding Network (SCEN) (Code: https://github.com/XDUxyLi/SCEN-master) for
unseen composition recognition. Considering the entanglement between state and
object, we embed the visual feature into a Siamese Contrastive Space to capture
prototypes of them separately, alleviating the interaction between state and
object. In addition, we design a State Transition Module (STM) to increase the
diversity of training compositions, improving the robustness of the recognition
model. Extensive experiments indicate that our method significantly outperforms
the state-of-the-art approaches on three challenging benchmark datasets,
including the recent proposed C-QGA dataset.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。
同じ状態は、異なるオブジェクトに絡み合ったまま視覚的に異なるため、CZSLは依然として困難なタスクである。
いくつかのメソッドは、2つのトレーニングされた分類器で状態とオブジェクトを認識し、オブジェクトと状態の相互作用の影響を無視する。
本稿では,合成認識のための新しいsiamese contrastive embedded network (scen) (コード: https://github.com/xduxyli/scen-master)を提案する。
状態とオブジェクトの絡み合いを考慮すると、視覚的な特徴をシャムのコントラスト空間に埋め込んでプロトタイプを別々に捉え、状態とオブジェクトの相互作用を緩和します。
さらに、トレーニング構成の多様性を高め、認識モデルの堅牢性を向上させるための状態遷移モジュール(STM)を設計する。
この手法は,最近提案されたC-QGAデータセットを含む3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回ることを示す。
関連論文リスト
- Contextual Interaction via Primitive-based Adversarial Training For Compositional Zero-shot Learning [23.757252768668497]
合成ゼロショット学習(CZSL)は、既知の属性オブジェクト対を通じて新規な合成を識別することを目的としている。
CZSLタスクの最大の課題は、属性とオブジェクトの視覚的プリミティブの間の複雑な相互作用によって導入された大きな相違にある。
本稿では,モデルに依存しない原始的適応学習(PBadv)手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:18:30Z) - Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning [37.445883075993414]
近年のコンポジションゼロショット学習 (CZSL) 法は, コンポジションオブジェクト対にのみトレーニング可能なプロンプトを構築することで, 事前学習された視覚言語モデル (VLM) に適応している。
CZSLモデルのための新しいパラダイムを提案し、状態、対象、構成を協調的にモデル化する3つの識別分岐(Multi-Path)を確立する。
提案手法は,クローズドワールドとオープンワールドの両設定において,既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-27T14:10:26Z) - Decomposed Soft Prompt Guided Fusion Enhancing for Compositional
Zero-Shot Learning [15.406125901927004]
本稿では、視覚言語モデル(VLM)を組み込んで、不明瞭な合成認識を実現することによって、DFSP(Decomposed Fusion with Soft Prompt)1という新しいフレームワークを提案する。
具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。
さらに、言語とイメージブランチの間にクロスモーダル融合モジュールが設計されており、画像の特徴ではなく、言語機能間で状態とオブジェクトを分解する。
論文 参考訳(メタデータ) (2022-11-19T12:29:12Z) - Mutual Balancing in State-Object Components for Compositional Zero-Shot
Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。
そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。
我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-19T10:21:22Z) - ProCC: Progressive Cross-primitive Compatibility for Open-World
Compositional Zero-Shot Learning [29.591615811894265]
Open-World Composal Zero-shot Learning (OW-CZSL) は、コンポジション空間に先立って、画像中の状態とオブジェクトプリミティブの新規なコンポジションを認識することを目的としている。
本稿では,OW-CZSLタスクの学習過程を模倣する,Progressive Cross-primitive Compatibility (ProCC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T10:09:46Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。