論文の概要: CAMS: Towards Compositional Zero-Shot Learning via Gated Cross-Attention and Multi-Space Disentanglement
- arxiv url: http://arxiv.org/abs/2511.16378v1
- Date: Thu, 20 Nov 2025 14:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.659021
- Title: CAMS: Towards Compositional Zero-Shot Learning via Gated Cross-Attention and Multi-Space Disentanglement
- Title(参考訳): CAMS: Gated Cross-Attention と Multi-Space Disentanglement による合成ゼロショット学習を目指して
- Authors: Pan Yang, Cheng Deng, Jing Yang, Han Zhao, Yun Liu, Yuling Chen, Xiaoli Ruan, Yanping Chen,
- Abstract要約: 合成ゼロショット学習 (CZSL) は, 対象と属性の概念を学習し, 未知の合成を認識することを目的としている。
視覚的特徴から意味的特徴を抽出し,多次元空間における意味的ゆがみを実行することを目的としたCAMSを提案する。
CAMSは、クローズドワールドとオープンワールドの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 47.59163940599447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional zero-shot learning (CZSL) aims to learn the concepts of attributes and objects in seen compositions and to recognize their unseen compositions. Most Contrastive Language-Image Pre-training (CLIP)-based CZSL methods focus on disentangling attributes and objects by leveraging the global semantic representation obtained from the image encoder. However, this representation has limited representational capacity and do not allow for complete disentanglement of the two. To this end, we propose CAMS, which aims to extract semantic features from visual features and perform semantic disentanglement in multidimensional spaces, thereby improving generalization over unseen attribute-object compositions. Specifically, CAMS designs a Gated Cross-Attention that captures fine-grained semantic features from the high-level image encoding blocks of CLIP through a set of latent units, while adaptively suppressing background and other irrelevant information. Subsequently, it conducts Multi-Space Disentanglement to achieve disentanglement of attribute and object semantics. Experiments on three popular benchmarks (MIT-States, UT-Zappos, and C-GQA) demonstrate that CAMS achieves state-of-the-art performance in both closed-world and open-world settings. The code is available at https://github.com/ybyangjing/CAMS.
- Abstract(参考訳): 合成ゼロショット学習 (CZSL) は, 対象や属性の概念を学習し, 未知の合成を認識することを目的としている。
CLIP(Contrastive Language- Image Pre-training)に基づくほとんどのCZSL法は,画像エンコーダから得られる大域的意味表現を活用することで,属性やオブジェクトの分離に重点を置いている。
しかし、この表現は表現能力に制限があり、この2つの完全解離を許さない。
そこで本研究では,視覚特徴から意味的特徴を抽出し,多次元空間における意味的ゆがみを実現することを目的としたCAMSを提案する。
具体的には、CAMSは、CLIPの高レベル画像エンコーディングブロックから、一連の潜伏ユニットを通して、微粒なセマンティック特徴をキャプチャするGated Cross-Attentionを設計し、背景やその他の無関係な情報を適応的に抑制する。
その後、属性とオブジェクトのセマンティクスの区切りを実現するために、マルチスペースの区切りを行う。
3つの人気のあるベンチマーク(MIT-States、UT-Zappos、C-GQA)の実験は、CAMSがクローズドワールドとオープンワールドの両方で最先端のパフォーマンスを達成することを示した。
コードはhttps://github.com/ybyangjing/CAMSで公開されている。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Efficiently Disentangling CLIP for Multi-Object Perception [62.523137132812764]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
凍結したVLMに最小限の学習可能なパラメータのみを追加しながら、最適な相互情報のレベルを学習する効率的なフレームワークであるDCLIPを提案する。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - Compositional Zero-Shot Learning with Contextualized Cues and Adaptive Contrastive Training [17.893694262999826]
本稿では,コンポジションゼロショット学習(CZSL)における属性とオブジェクト(ULAO)の理解とリンクに関する新しい枠組みを紹介する。
ULAOは2つの革新的なモジュールから構成されている。理解属性とオブジェクト(UAO)モジュールは、逐次原始予測によって原始的理解を改善し、認識されたオブジェクトを属性分類の文脈的ヒントとして活用する。
Linking Attributes and Objects (LAO)モジュールは、調整されたハードネガティブ生成と適応的損失調整を含む新しいコントラスト学習戦略を通じて、属性オブジェクトのリンク理解を改善する。
論文 参考訳(メタデータ) (2024-12-10T03:41:20Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning [21.488599805772054]
合成ゼロショット学習は、見かけの合成から学んだ属性やオブジェクトの新規な構成を認識することを目的としている。
以前の作業では、同じ属性を共有するイメージペア間の共有部分と排他的部分を抽出することで、属性とオブジェクトを歪めていた。
マルチモーダル大言語モデル (MLLM) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T07:55:54Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。