論文の概要: Disentangling Visual Embeddings for Attributes and Objects
- arxiv url: http://arxiv.org/abs/2205.08536v1
- Date: Tue, 17 May 2022 17:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 12:59:42.814748
- Title: Disentangling Visual Embeddings for Attributes and Objects
- Title(参考訳): 属性とオブジェクトに対する視覚的埋め込みの分離
- Authors: Nirat Saini, Khoi Pham, Abhinav Shrivastava
- Abstract要約: オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 38.27308243429424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of compositional zero-shot learning for object-attribute
recognition. Prior works use visual features extracted with a backbone network,
pre-trained for object classification and thus do not capture the subtly
distinct features associated with attributes. To overcome this challenge, these
studies employ supervision from the linguistic space, and use pre-trained word
embeddings to better separate and compose attribute-object pairs for
recognition. Analogous to linguistic embedding space, which already has unique
and agnostic embeddings for object and attribute, we shift the focus back to
the visual space and propose a novel architecture that can disentangle
attribute and object features in the visual space. We use visual decomposed
features to hallucinate embeddings that are representative for the seen and
novel compositions to better regularize the learning of our model. Extensive
experiments show that our method outperforms existing work with significant
margin on three datasets: MIT-States, UT-Zappos, and a new benchmark created
based on VAW. The code, models, and dataset splits are publicly available at
https://github.com/nirat1606/OADis.
- Abstract(参考訳): オブジェクト属性認識における合成ゼロショット学習の問題について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用しており、属性に関連付けられた微妙な特徴をキャプチャしない。
この課題を克服するために、これらの研究は言語空間からの監督を採用し、事前訓練された単語埋め込みを用いて、属性オブジェクト対をよりよく分離して構成する。
言語的な埋め込み空間は、すでにオブジェクトと属性のユニークで無知な埋め込みを持っているが、私たちは焦点を視覚空間に移し、視覚空間における属性とオブジェクトの特徴を分離できる新しいアーキテクチャを提案する。
我々は視覚的に分解された特徴を利用して、視覚的および新しい構成を表す埋め込みを幻覚させ、モデルの学習をより規則化する。
大規模な実験により、我々の手法は既存の3つのデータセット(MIT-States、UT-Zappos、VAWに基づいた新しいベンチマーク)よりも優れています。
コード、モデル、データセットの分割はhttps://github.com/nirat1606/OADisで公開されている。
関連論文リスト
- Attention Based Simple Primitives for Open World Compositional Zero-Shot Learning [12.558701595138928]
合成ゼロショット学習(CZSL)は属性とオブジェクトペアからなる未知の合成を予測することを目的としている。
この研究では、私たちのテストスペースが属性とオブジェクトの潜在的な組み合わせをすべて包含するオープンワールド構成ゼロショット学習(OW-CZSL)を探求しています。
提案手法では, 属性とオブジェクト間の自己認識機構を利用して, 目に見えるものから見えないものまで, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:11:29Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。