論文の概要: Cross-composition Feature Disentanglement for Compositional Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2408.09786v1
- Date: Mon, 19 Aug 2024 08:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:04:37.447374
- Title: Cross-composition Feature Disentanglement for Compositional Zero-shot Learning
- Title(参考訳): 合成ゼロショット学習のためのクロスコンポジション特徴分散
- Authors: Yuxia Geng, Runkai Zhu, Jiaoyan Chen, Jintai Chen, Zhuo Chen, Xiang Chen, Can Xu, Yuxiang Wang, Xiaoliang Xu,
- Abstract要約: 合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
本稿では,複数のプリミティブ・シェアリング・コンポジションを入力とし,これらのコンポジションにまたがって一般化されるような不整合プリミティブ・コンポジションを制約するクロス・コンポジション・コンストラクション・ディエンタングルメントの解を提案する。
- 参考スコア(独自算出の注目度): 49.919635694894204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentanglement of visual features of primitives (i.e., attributes and objects) has shown exceptional results in Compositional Zero-shot Learning (CZSL). However, due to the feature divergence of an attribute (resp. object) when combined with different objects (resp. attributes), it is challenging to learn disentangled primitive features that are general across different compositions. To this end, we propose the solution of cross-composition feature disentanglement, which takes multiple primitive-sharing compositions as inputs and constrains the disentangled primitive features to be general across these compositions. More specifically, we leverage a compositional graph to define the overall primitive-sharing relationships between compositions, and build a task-specific architecture upon the recently successful large pre-trained vision-language model (VLM) CLIP, with dual cross-composition disentangling adapters (called L-Adapter and V-Adapter) inserted into CLIP's frozen text and image encoders, respectively. Evaluation on three popular CZSL benchmarks shows that our proposed solution significantly improves the performance of CZSL, and its components have been verified by solid ablation studies.
- Abstract(参考訳): プリミティブ(属性やオブジェクト)の視覚的特徴の分散は、コンポジションゼロショット学習(CZSL)において例外的な結果を示している。
しかし、属性(resp.オブジェクト)と異なるオブジェクト(resp.属性)を組み合わせると、属性(resp.オブジェクト)の特徴がばらばらになるため、異なるコンポジションにまたがる一般的でないプリミティブな特徴を学習することは困難である。
そこで本論文では,複数のプリミティブ共有合成を入力として取り込んで,これらの合成に対して一般化される不整合プリミティブ特徴を制約するクロスコンポジション特徴分散の解を提案する。
より具体的には、コンポジショングラフを利用して、コンポジション間の全体的な原始的共有関係を定義し、CLIPのフリーズテキストとイメージエンコーダに2つのクロスコンポジション・ディエンタングリングアダプタ(L-Adapter と V-Adapter と呼ばれる)を挿入して、最近成功している大規模視覚言語モデル(VLM)のCLIP上にタスク固有のアーキテクチャを構築する。
CZSLベンチマークの3つの評価結果から,提案手法はCZSLの性能を著しく改善することが示された。
関連論文リスト
- CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot
Learning [62.090051975043544]
属性とオブジェクト(A-O)の絡み合いは、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である
CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T14:18:41Z) - Context-based and Diversity-driven Specificity in Compositional
Zero-Shot Learning [23.2504379682456]
コンポジションゼロショット学習(CZSL)のためのコンテキストベースおよび多様性駆動型特異性学習フレームワークについて紹介する。
本フレームワークは, 属性の特異性について, 適用対象の多様性と関連するコンテキストを考慮して評価する。
この手法により、特定の属性オブジェクト対を強調してより正確な予測が可能となり、OW-CZSLにおける合成フィルタリングが改善される。
論文 参考訳(メタデータ) (2024-02-27T06:50:31Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - ProCC: Progressive Cross-primitive Compatibility for Open-World
Compositional Zero-Shot Learning [29.591615811894265]
Open-World Composal Zero-shot Learning (OW-CZSL) は、コンポジション空間に先立って、画像中の状態とオブジェクトプリミティブの新規なコンポジションを認識することを目的としている。
本稿では,OW-CZSLタスクの学習過程を模倣する,Progressive Cross-primitive Compatibility (ProCC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T10:09:46Z) - Learning Invariant Visual Representations for Compositional Zero-Shot
Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。
本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。
2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-01T11:33:33Z) - KG-SP: Knowledge Guided Simple Primitives for Open World Compositional
Zero-Shot Learning [52.422873819371276]
オープンワールドコンポジションゼロショット学習(OW-CZSL)の目的は、画像中の状態とオブジェクトの合成を認識することである。
ここでは、単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立して予測する。
出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。
我々のモデルであるKG-SPはOW-CZSLとpCZSLの両方で技術の状態を達成する。
論文 参考訳(メタデータ) (2022-05-13T17:18:15Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z) - On Learning Sets of Symmetric Elements [63.12061960528641]
本稿では、一般的な対称要素の集合を学習するための原則的アプローチを提案する。
まず、元の再順序化と元の固有対称性の両方に不変な線型層の空間を特徴づける。
さらに、これらの層からなるネットワークは、DSS(Deep Sets for Symmetric Elements)層と呼ばれ、不変関数と同変関数の両方の普遍近似器であることを示す。
論文 参考訳(メタデータ) (2020-02-20T07:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。