論文の概要: Learning to Infer Unseen Single-/Multi-Attribute-Object Compositions with Graph Networks
- arxiv url: http://arxiv.org/abs/2010.14343v3
- Date: Sat, 27 Sep 2025 17:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.585807
- Title: Learning to Infer Unseen Single-/Multi-Attribute-Object Compositions with Graph Networks
- Title(参考訳): グラフネットワークを用いた未知の単一/多属性オブジェクト合成の学習
- Authors: Hui Chen, Jingjing Jiang, Nanning Zheng,
- Abstract要約: 本稿では,複雑な関係を学習するための属性オブジェクト意味関連グラフモデルを提案する。
属性とオブジェクトを表すノードでは、グラフは柔軟に構築でき、単一の属性と複数属性オブジェクトの合成認識を実現する。
- 参考スコア(独自算出の注目度): 47.43595942156663
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inferring the unseen attribute-object composition is critical to make machines learn to decompose and compose complex concepts like people. Most existing methods are limited to the composition recognition of single-attribute-object, and can hardly learn relations between the attributes and objects. In this paper, we propose an attribute-object semantic association graph model to learn the complex relations and enable knowledge transfer between primitives. With nodes representing attributes and objects, the graph can be constructed flexibly, which realizes both single- and multi-attribute-object composition recognition. In order to reduce mis-classifications of similar compositions (e.g., scratched screen and broken screen), driven by the contrastive loss, the anchor image feature is pulled closer to the corresponding label feature and pushed away from other negative label features. Specifically, a novel balance loss is proposed to alleviate the domain bias, where a model prefers to predict seen compositions. In addition, we build a large-scale MultiAttribute Dataset (MAD) with 116,099 images and 8,030 label categories for inferring unseen multi-attribute-object compositions. Along with MAD, we propose two novel metrics Hard and Soft to give a comprehensive evaluation in the multi-attribute setting. Experiments on MAD and two other single-attribute-object benchmarks (MIT-States and UT-Zappos50K) demonstrate the effectiveness of our approach.
- Abstract(参考訳): 目に見えない属性オブジェクトの合成を推論することは、機械が人のような複雑な概念を分解して構成することを学ばせるために重要である。
既存の手法のほとんどは単一属性オブジェクトの合成認識に限られており、属性とオブジェクトの関係をほとんど学べない。
本稿では,複雑な関係を学習し,プリミティブ間の知識伝達を可能にする属性オブジェクト意味関連グラフモデルを提案する。
属性とオブジェクトを表すノードでは、グラフは柔軟に構築でき、単一の属性と複数属性オブジェクトの合成認識を実現する。
コントラスト損失により駆動される類似組成物(例えば、スクラッチスクリーン、壊れた画面)の誤分類を低減するために、アンカー画像特徴を対応するラベル特徴に近づけ、他の負のラベル特徴から押し出す。
具体的には、モデルが目に見える組成を予測することを好む領域バイアスを軽減するために、新しいバランス損失が提案される。
さらに、116,099の画像と8,030のラベルカテゴリを持つ大規模マルチ属性・オブジェクト・コンポジションを推定するためのマルチ属性・データセット(MAD)を構築した。
我々はMADとともに,マルチ属性設定において総合的な評価を行うために,HardとSoftの2つの新しい指標を提案する。
MADと他の2つの単一属性オブジェクトベンチマーク(MIT-States と UT-Zappos50K)の実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- A Conditional Probability Framework for Compositional Zero-shot Learning [86.86063926727489]
合成ゼロショット学習(CZSL)は、既知の合成から知識を活用することで、既知のオブジェクトと属性の見知らぬ組み合わせを認識することを目的としている。
従来のアプローチは、主に属性とオブジェクトを分離することに焦点を当て、学習中にそれらを独立したエンティティとして扱う。
属性オブジェクトの依存関係を明示的にモデル化するために、条件付き確率フレームワーク(CPF)を採用しています。
論文 参考訳(メタデータ) (2025-07-23T10:20:52Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning [33.12021227971062]
合成ゼロショット学習(CZSL)は、意味的プリミティブ(属性とオブジェクト)を無視して学習し、見知らぬ属性オブジェクトの合成を認識することを目的としている。
我々は18,217のイメージと11,067のコンポジションを含む多属性合成データセットを紹介した。
我々のデータセットは、より深い意味理解と高次属性関連をサポートし、CZSLタスクのより現実的で挑戦的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-06-18T16:24:48Z) - Predicting Scores of Various Aesthetic Attribute Sets by Learning from
Overall Score Labels [54.63611854474985]
本稿では,画像属性ラベルを特徴抽出器に置き換えることを提案する。
異なるタスクのネットワークを使用して、F2Sモデルに属性機能を提供します。
本手法は, 各種の美的属性セットに対して, 総合的な美的スコアのみを用いて有意な属性スコアを学習できるようにする。
論文 参考訳(メタデータ) (2023-12-06T01:41:49Z) - UMAAF: Unveiling Aesthetics via Multifarious Attributes of Images [16.647573404422175]
画像の絶対属性と相対属性の両方をモデル化する統一多属性美意識評価フレームワーク(UMAAF)を提案する。
UMAAFは、TAD66KとAVAデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-19T11:57:01Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Learning Invariant Visual Representations for Compositional Zero-Shot
Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。
本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。
2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-01T11:33:33Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Large-Scale Attribute-Object Compositions [28.97267708915054]
本研究では,画像からの属性対象合成の予測方法の学習課題と,学習データから欠落した未知の合成への一般化について検討する。
私たちは、ハッシュタグを使ってInstagramの画像でフレームワークをトレーニングします。
我々は、ノイズの多いアノテーションや目に見えない合成を扱うために、データ収集とモデリングのために慎重に設計する。
論文 参考訳(メタデータ) (2021-05-24T16:05:41Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。