論文の概要: Cross-composition Feature Disentanglement for Compositional Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2408.09786v1
- Date: Mon, 19 Aug 2024 08:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:04:37.447374
- Title: Cross-composition Feature Disentanglement for Compositional Zero-shot Learning
- Title(参考訳): 合成ゼロショット学習のためのクロスコンポジション特徴分散
- Authors: Yuxia Geng, Runkai Zhu, Jiaoyan Chen, Jintai Chen, Zhuo Chen, Xiang Chen, Can Xu, Yuxiang Wang, Xiaoliang Xu,
- Abstract要約: 合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
本稿では,複数のプリミティブ・シェアリング・コンポジションを入力とし,これらのコンポジションにまたがって一般化されるような不整合プリミティブ・コンポジションを制約するクロス・コンポジション・コンストラクション・ディエンタングルメントの解を提案する。
- 参考スコア(独自算出の注目度): 49.919635694894204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentanglement of visual features of primitives (i.e., attributes and objects) has shown exceptional results in Compositional Zero-shot Learning (CZSL). However, due to the feature divergence of an attribute (resp. object) when combined with different objects (resp. attributes), it is challenging to learn disentangled primitive features that are general across different compositions. To this end, we propose the solution of cross-composition feature disentanglement, which takes multiple primitive-sharing compositions as inputs and constrains the disentangled primitive features to be general across these compositions. More specifically, we leverage a compositional graph to define the overall primitive-sharing relationships between compositions, and build a task-specific architecture upon the recently successful large pre-trained vision-language model (VLM) CLIP, with dual cross-composition disentangling adapters (called L-Adapter and V-Adapter) inserted into CLIP's frozen text and image encoders, respectively. Evaluation on three popular CZSL benchmarks shows that our proposed solution significantly improves the performance of CZSL, and its components have been verified by solid ablation studies.
- Abstract(参考訳): プリミティブ(属性やオブジェクト)の視覚的特徴の分散は、コンポジションゼロショット学習(CZSL)において例外的な結果を示している。
しかし、属性(resp.オブジェクト)と異なるオブジェクト(resp.属性)を組み合わせると、属性(resp.オブジェクト)の特徴がばらばらになるため、異なるコンポジションにまたがる一般的でないプリミティブな特徴を学習することは困難である。
そこで本論文では,複数のプリミティブ共有合成を入力として取り込んで,これらの合成に対して一般化される不整合プリミティブ特徴を制約するクロスコンポジション特徴分散の解を提案する。
より具体的には、コンポジショングラフを利用して、コンポジション間の全体的な原始的共有関係を定義し、CLIPのフリーズテキストとイメージエンコーダに2つのクロスコンポジション・ディエンタングリングアダプタ(L-Adapter と V-Adapter と呼ばれる)を挿入して、最近成功している大規模視覚言語モデル(VLM)のCLIP上にタスク固有のアーキテクチャを構築する。
CZSLベンチマークの3つの評価結果から,提案手法はCZSLの性能を著しく改善することが示された。
関連論文リスト
- Learning Clustering-based Prototypes for Compositional Zero-shot Learning [56.57299428499455]
ClusProは、コンポジションゼロショット学習のための堅牢なクラスタリングベースのプロトタイプマイニングフレームワークである。
それは、多様化されたプロトタイプの集合を通じて、プリミティブの概念的境界を定義する。
ClusProは、学習可能なパラメータを追加することなく、非パラメトリックな方法でプロトタイプクラスタリングを効率的に実行する。
論文 参考訳(メタデータ) (2025-02-10T14:20:01Z) - Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning [21.488599805772054]
合成ゼロショット学習は、見かけの合成から学んだ属性やオブジェクトの新規な構成を認識することを目的としている。
以前の作業では、同じ属性を共有するイメージペア間の共有部分と排他的部分を抽出することで、属性とオブジェクトをアンタングルにする。
本稿では,MLLM (Multimodal Large Language Model) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T07:55:54Z) - CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot
Learning [62.090051975043544]
属性とオブジェクト(A-O)の絡み合いは、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である
CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T14:18:41Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - ProCC: Progressive Cross-primitive Compatibility for Open-World
Compositional Zero-Shot Learning [29.591615811894265]
Open-World Composal Zero-shot Learning (OW-CZSL) は、コンポジション空間に先立って、画像中の状態とオブジェクトプリミティブの新規なコンポジションを認識することを目的としている。
本稿では,OW-CZSLタスクの学習過程を模倣する,Progressive Cross-primitive Compatibility (ProCC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T10:09:46Z) - Learning Invariant Visual Representations for Compositional Zero-Shot
Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。
本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。
2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-01T11:33:33Z) - KG-SP: Knowledge Guided Simple Primitives for Open World Compositional
Zero-Shot Learning [52.422873819371276]
オープンワールドコンポジションゼロショット学習(OW-CZSL)の目的は、画像中の状態とオブジェクトの合成を認識することである。
ここでは、単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立して予測する。
出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。
我々のモデルであるKG-SPはOW-CZSLとpCZSLの両方で技術の状態を達成する。
論文 参考訳(メタデータ) (2022-05-13T17:18:15Z) - On Learning Sets of Symmetric Elements [63.12061960528641]
本稿では、一般的な対称要素の集合を学習するための原則的アプローチを提案する。
まず、元の再順序化と元の固有対称性の両方に不変な線型層の空間を特徴づける。
さらに、これらの層からなるネットワークは、DSS(Deep Sets for Symmetric Elements)層と呼ばれ、不変関数と同変関数の両方の普遍近似器であることを示す。
論文 参考訳(メタデータ) (2020-02-20T07:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。