論文の概要: Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2308.04016v1
- Date: Tue, 8 Aug 2023 03:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:14:02.185206
- Title: Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning
- Title(参考訳): 構成ゼロショット学習のための階層的ビジュアルプリミティブエキスパート
- Authors: Hanjae Kim, Jiyoung Lee, Seongheon Park, Kwanghoon Sohn
- Abstract要約: 合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
- 参考スコア(独自算出の注目度): 52.506434446439776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional zero-shot learning (CZSL) aims to recognize unseen compositions
with prior knowledge of known primitives (attribute and object). Previous works
for CZSL often suffer from grasping the contextuality between attribute and
object, as well as the discriminability of visual features, and the long-tailed
distribution of real-world compositional data. We propose a simple and scalable
framework called Composition Transformer (CoT) to address these issues. CoT
employs object and attribute experts in distinctive manners to generate
representative embeddings, using the visual network hierarchically. The object
expert extracts representative object embeddings from the final layer in a
bottom-up manner, while the attribute expert makes attribute embeddings in a
top-down manner with a proposed object-guided attention module that models
contextuality explicitly. To remedy biased prediction caused by imbalanced data
distribution, we develop a simple minority attribute augmentation (MAA) that
synthesizes virtual samples by mixing two images and oversampling minority
attribute classes. Our method achieves SoTA performance on several benchmarks,
including MIT-States, C-GQA, and VAW-CZSL. We also demonstrate the
effectiveness of CoT in improving visual discrimination and addressing the
model bias from the imbalanced data distribution. The code is available at
https://github.com/HanjaeKim98/CoT.
- Abstract(参考訳): compositional zero-shot learning (czsl) は、既知のプリミティブ(属性とオブジェクト)の事前知識を持つ、未知のコンポジションを認識することを目的としている。
CZSLのこれまでの研究は、属性とオブジェクト間の文脈性、視覚的特徴の識別可能性、および現実世界の合成データの長期分布の把握に悩まされることが多かった。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
CoTは、視覚ネットワークを階層的に使用して、オブジェクトと属性の専門家を独特な方法で使用して、代表的な埋め込みを生成する。
オブジェクトエキスパートは、最終層からボトムアップ方式で代表オブジェクト埋め込みを抽出し、属性エキスパートは、コンテキスト性を明確にモデル化するオブジェクト誘導アテンションモジュールで、トップダウン方式で属性埋め込みを行う。
不均衡なデータ分布に起因するバイアス予測を緩和するために,2つのイメージを混合して仮想サンプルを合成し,少数属性クラスをオーバーサンプリングする,シンプルなマイノリティ属性拡張(MAA)を開発した。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
また,cotが視覚識別を改善し,不均衡データ分布からモデルバイアスに対処する効果を示す。
コードはhttps://github.com/HanjaeKim98/CoT.comで入手できる。
関連論文リスト
- Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning [21.488599805772054]
合成ゼロショット学習は、見かけの合成から学んだ属性やオブジェクトの新規な構成を認識することを目的としている。
以前の作業では、同じ属性を共有するイメージペア間の共有部分と排他的部分を抽出することで、属性とオブジェクトをアンタングルにする。
本稿では,MLLM (Multimodal Large Language Model) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T07:55:54Z) - Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [49.919635694894204]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
本稿では,複数のプリミティブ・シェアリング・コンポジションを入力とし,これらのコンポジションにまたがって一般化されるような不整合プリミティブ・コンポジションを制約するクロス・コンポジション・コンストラクション・ディエンタングルメントの解を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:23:09Z) - CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning [48.46511584490582]
ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。
分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げる。
これらの課題を克服するために、双方向のクロスモーダルZSLアプローチCRESTを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:19:39Z) - Attribute-Aware Representation Rectification for Generalized Zero-Shot
Learning [19.65026043141699]
一般化ゼロショット学習(GZSL)は、一連の非バイアスの視覚-セマンティックマッピングを設計することによって、顕著な性能を得た。
本稿では,GZSLに対して,$mathbf(AR)2$という簡易かつ効果的な属性認識表現フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:32Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Learning Invariant Visual Representations for Compositional Zero-Shot
Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。
本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。
2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-01T11:33:33Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。