論文の概要: MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2406.12757v2
- Date: Mon, 17 Mar 2025 16:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:26.043821
- Title: MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning
- Title(参考訳): MAC: 合成ゼロショット学習のためのマルチ属性ベンチマーク
- Authors: Shuo Xu, Sai Wang, Xinyue Hu, Yutian Lin, Bo Du, Yu Wu,
- Abstract要約: 合成ゼロショット学習(CZSL)は、合成から意味的プリミティブ(属性とオブジェクト)を学ぶことを目的としている。
我々は,22,838の画像と17,627の合成を包括的および代表的属性アノテーションで包含する多属性合成データセットを提案する。
MACに基づいて,より深い意味理解と高度な属性関連を必要とする多属性合成ゼロショット学習を提案する。
- 参考スコア(独自算出の注目度): 33.12021227971062
- License:
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to learn semantic primitives (attributes and objects) from seen compositions and recognize unseen attribute-object compositions. Existing CZSL datasets focus on single attributes, neglecting the fact that objects naturally exhibit multiple interrelated attributes. Their narrow attribute scope and single attribute labeling introduce annotation biases, misleading the learning of attributes and causing inaccurate evaluation. To address these issues, we introduce the Multi-Attribute Composition (MAC) dataset, encompassing 22,838 images and 17,627 compositions with comprehensive and representative attribute annotations. MAC shows complex relationship between attributes and objects, with each attribute type linked to an average of 82.2 object types, and each object type associated with 31.4 attribute types. Based on MAC, we propose multi-attribute compositional zero-shot learning that requires deeper semantic understanding and advanced attribute associations, establishing a more realistic and challenging benchmark for CZSL. We also propose Multi-attribute Visual-Primitive Integrator (MVP-Integrator), a robust baseline for multi-attribute CZSL, which disentangles semantic primitives and performs effective visual-primitive association. Experimental results demonstrate that MVP-Integrator significantly outperforms existing CZSL methods on MAC with improved inference efficiency.
- Abstract(参考訳): コンポジションゼロショット学習(CZSL)は、目に見えない属性オブジェクトの合成からセマンティックプリミティブ(属性とオブジェクト)を学習することを目的としている。
既存のCZSLデータセットは単一の属性に焦点を当てており、オブジェクトが自然に複数の相互関連属性を示すという事実を無視している。
彼らの狭い属性範囲と単一属性ラベルは、アノテーションバイアスを導入し、属性の学習を誤解させ、不正確な評価を引き起こします。
これらの問題に対処するため,22,838のイメージと17,627のコンポジションを包括的および代表的属性アノテーションで包括する多属性合成(MAC)データセットを導入した。
MACは属性とオブジェクトの間の複雑な関係を示し、各属性タイプは平均82.2のオブジェクトタイプにリンクされ、各オブジェクトタイプは31.4の属性タイプに関連付けられている。
MACに基づいて、より深い意味理解と高度な属性関連を必要とする多属性合成ゼロショット学習を提案し、CZSLのより現実的で挑戦的なベンチマークを確立する。
また、多属性CZSLの頑健なベースラインである多属性ビジュアルプリミティブインテグレータ(MVP-Integrator)を提案し、セマンティックプリミティブを乱し、効果的な視覚的プリミティブアソシエーションを行う。
実験の結果, MVP-IntegratorはMAC上の既存のCZSL法よりも高い性能を示し, 推論効率が向上した。
関連論文リスト
- Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Label2Label: A Language Modeling Framework for Multi-Attribute Learning [93.68058298766739]
Label2Labelは、言語モデリングの観点からのマルチ属性予測の最初の試みである。
NLPにおける事前学習言語モデルの成功に触発されたLabel2Labelは、イメージ条件付きマスキング言語モデルを導入した。
我々の直感は、ニューラルネットワークがコンテキストと残りの属性ヒントに基づいて欠落した属性を推測できる場合、インスタンスの属性関係がよく把握されるということである。
論文 参考訳(メタデータ) (2022-07-18T15:12:33Z) - Learning to Predict Visual Attributes in the Wild [43.91237738107603]
260K以上のオブジェクトインスタンスに対して,927K以上の属性アノテーションからなる大規模なウィジェット内属性予測データセットを導入する。
本稿では,低レベルCNN機能と高レベルCNN機能の両方を利用するベースモデルを含む,これらの課題に体系的に対処する手法を提案する。
これらの技術を用いることで,現状よりも3.7mAP,5.7ポイントのF1点が向上した。
論文 参考訳(メタデータ) (2021-06-17T17:58:02Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z) - Learning to Infer Unseen Attribute-Object Compositions [55.58107964602103]
単一属性と多属性オブジェクトの両方を柔軟に認識できるグラフベースモデルを提案する。
我々は116,099の画像と8,030の合成カテゴリを持つ大規模マルチ属性データセットを構築した。
論文 参考訳(メタデータ) (2020-10-27T14:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。