論文の概要: Learning to Infer Unseen Attribute-Object Compositions
- arxiv url: http://arxiv.org/abs/2010.14343v2
- Date: Tue, 3 Nov 2020 09:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:25:14.110014
- Title: Learning to Infer Unseen Attribute-Object Compositions
- Title(参考訳): 未知の属性オブジェクト合成を推論する学習
- Authors: Hui Chen, Zhixiong Nan, Jingjing Jiang and Nanning Zheng
- Abstract要約: 単一属性と多属性オブジェクトの両方を柔軟に認識できるグラフベースモデルを提案する。
我々は116,099の画像と8,030の合成カテゴリを持つ大規模マルチ属性データセットを構築した。
- 参考スコア(独自算出の注目度): 55.58107964602103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The composition recognition of unseen attribute-object is critical to make
machines learn to decompose and compose complex concepts like people. Most of
the existing methods are limited to the composition recognition of
single-attribute-object, and can hardly distinguish the compositions with
similar appearances. In this paper, a graph-based model is proposed that can
flexibly recognize both single- and multi-attribute-object compositions. The
model maps the visual features of images and the attribute-object category
labels represented by word embedding vectors into a latent space. Then,
according to the constraints of the attribute-object semantic association,
distances are calculated between visual features and the corresponding label
semantic features in the latent space. During the inference, the composition
that is closest to the given image feature among all compositions is used as
the reasoning result. In addition, we build a large-scale Multi-Attribute
Dataset (MAD) with 116,099 images and 8,030 composition categories. Experiments
on MAD and two other single-attribute-object benchmark datasets demonstrate the
effectiveness of our approach.
- Abstract(参考訳): unseen属性オブジェクトのコンポジション認識は、機械に人間のような複雑な概念の分解と構成を学ぶのに不可欠である。
既存の手法のほとんどは単一属性オブジェクトの合成認識に限られており、類似した外観の合成をほとんど区別できない。
本稿では,単一属性と複数属性の組み合わせを柔軟に認識可能なグラフモデルを提案する。
モデルは、画像の視覚的特徴と単語埋め込みベクトルで表される属性オブジェクトカテゴリラベルを潜在空間にマッピングする。
そして、属性オブジェクトの意味関係の制約に従って、潜在空間における視覚的特徴と対応するラベル的特徴との距離を算出する。
この推論では、すべての合成物のうち、所定の画像特徴に最も近い合成物を推論結果として用いる。
さらに,116,099画像と8,030合成カテゴリの大規模マルチ属性データセット(mad)を構築した。
MADと他の2つの単属性オブジェクトベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
関連論文リスト
- MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning [33.12021227971062]
合成ゼロショット学習(CZSL)は、意味的プリミティブ(属性とオブジェクト)を無視して学習し、見知らぬ属性オブジェクトの合成を認識することを目的としている。
我々は18,217のイメージと11,067のコンポジションを含む多属性合成データセットを紹介した。
我々のデータセットは、より深い意味理解と高次属性関連をサポートし、CZSLタスクのより現実的で挑戦的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-06-18T16:24:48Z) - Predicting Scores of Various Aesthetic Attribute Sets by Learning from
Overall Score Labels [54.63611854474985]
本稿では,画像属性ラベルを特徴抽出器に置き換えることを提案する。
異なるタスクのネットワークを使用して、F2Sモデルに属性機能を提供します。
本手法は, 各種の美的属性セットに対して, 総合的な美的スコアのみを用いて有意な属性スコアを学習できるようにする。
論文 参考訳(メタデータ) (2023-12-06T01:41:49Z) - UMAAF: Unveiling Aesthetics via Multifarious Attributes of Images [16.647573404422175]
画像の絶対属性と相対属性の両方をモデル化する統一多属性美意識評価フレームワーク(UMAAF)を提案する。
UMAAFは、TAD66KとAVAデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-19T11:57:01Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Learning Invariant Visual Representations for Compositional Zero-Shot
Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。
本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。
2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-01T11:33:33Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Large-Scale Attribute-Object Compositions [28.97267708915054]
本研究では,画像からの属性対象合成の予測方法の学習課題と,学習データから欠落した未知の合成への一般化について検討する。
私たちは、ハッシュタグを使ってInstagramの画像でフレームワークをトレーニングします。
我々は、ノイズの多いアノテーションや目に見えない合成を扱うために、データ収集とモデリングのために慎重に設計する。
論文 参考訳(メタデータ) (2021-05-24T16:05:41Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。