論文の概要: Learning to Predict Visual Attributes in the Wild
- arxiv url: http://arxiv.org/abs/2106.09707v1
- Date: Thu, 17 Jun 2021 17:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:47:43.927378
- Title: Learning to Predict Visual Attributes in the Wild
- Title(参考訳): 野生の視覚属性を予測するための学習
- Authors: Khoi Pham, Kushal Kafle, Zhe Lin, Zhihong Ding, Scott Cohen, Quan
Tran, Abhinav Shrivastava
- Abstract要約: 260K以上のオブジェクトインスタンスに対して,927K以上の属性アノテーションからなる大規模なウィジェット内属性予測データセットを導入する。
本稿では,低レベルCNN機能と高レベルCNN機能の両方を利用するベースモデルを含む,これらの課題に体系的に対処する手法を提案する。
これらの技術を用いることで,現状よりも3.7mAP,5.7ポイントのF1点が向上した。
- 参考スコア(独自算出の注目度): 43.91237738107603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual attributes constitute a large portion of information contained in a
scene. Objects can be described using a wide variety of attributes which
portray their visual appearance (color, texture), geometry (shape, size,
posture), and other intrinsic properties (state, action). Existing work is
mostly limited to study of attribute prediction in specific domains. In this
paper, we introduce a large-scale in-the-wild visual attribute prediction
dataset consisting of over 927K attribute annotations for over 260K object
instances. Formally, object attribute prediction is a multi-label
classification problem where all attributes that apply to an object must be
predicted. Our dataset poses significant challenges to existing methods due to
large number of attributes, label sparsity, data imbalance, and object
occlusion. To this end, we propose several techniques that systematically
tackle these challenges, including a base model that utilizes both low- and
high-level CNN features with multi-hop attention, reweighting and resampling
techniques, a novel negative label expansion scheme, and a novel supervised
attribute-aware contrastive learning algorithm. Using these techniques, we
achieve near 3.7 mAP and 5.7 overall F1 points improvement over the current
state of the art. Further details about the VAW dataset can be found at
http://vawdataset.com/.
- Abstract(参考訳): 視覚属性はシーンに含まれる情報の大部分を構成する。
オブジェクトは、視覚的な外観(色、テクスチャ)、幾何学(形、サイズ、姿勢)、および他の固有の特性(状態、動作)を記述する様々な属性を使って記述することができる。
既存の作業は、特定のドメインにおける属性予測の研究に限られている。
本稿では,260K以上のオブジェクトインスタンスに対して,927K以上の属性アノテーションからなる大規模視覚属性予測データセットを提案する。
オブジェクト属性予測は、オブジェクトに適用するすべての属性を予測しなければならないマルチラベル分類問題である。
我々のデータセットは、多数の属性、ラベルの空間性、データの不均衡、オブジェクトの閉塞など、既存のメソッドに重大な課題を提起します。
そこで本研究では,低レベルと高レベルの両方のcnn機能を活用したベースモデル,重み付けと再サンプリング手法,新しい負ラベル拡張手法,教師付き属性認識型コントラスト学習アルゴリズムなど,これらの課題を体系的に解決する手法を提案する。
これらの技術を用いることで,現状よりも3.7mAP,5.7ポイントのF1点が向上した。
VAWデータセットの詳細はhttp://vawdataset.com/で確認できる。
関連論文リスト
- An Attribute-Enriched Dataset and Auto-Annotated Pipeline for Open Detection [7.531866919805308]
我々は、既存のObjects365データセットの拡張であるObjects365-Attrデータセットを紹介し、属性アノテーションによって区別する。
このデータセットは、色、材料、状態、テクスチャ、トーンを含む幅広い属性のスペクトルを統合することで、オブジェクト検出の不整合を低減する。
5.6Mのオブジェクトレベルの属性記述の広範なコレクションが含まれており、1.4Mのバウンディングボックスに細心の注意を払って注釈付けされている。
論文 参考訳(メタデータ) (2024-09-10T07:53:32Z) - MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning [33.12021227971062]
合成ゼロショット学習(CZSL)は、意味的プリミティブ(属性とオブジェクト)を無視して学習し、見知らぬ属性オブジェクトの合成を認識することを目的としている。
我々は18,217のイメージと11,067のコンポジションを含む多属性合成データセットを紹介した。
我々のデータセットは、より深い意味理解と高次属性関連をサポートし、CZSLタスクのより現実的で挑戦的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-06-18T16:24:48Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Learning Concise and Descriptive Attributes for Visual Recognition [25.142065847381758]
数千の属性をクエリすることで、画像機能と競合するパフォーマンスが得られることを示す。
そこで本研究では,これらの属性の簡潔な集合を見つけるための新しい学習・探索手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T16:00:22Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - GlideNet: Global, Local and Intrinsic based Dense Embedding NETwork for
Multi-category Attributes Prediction [27.561424604521026]
我々はGlideNetという新しい属性予測アーキテクチャを提案する。
GlideNetには3つの異なる特徴抽出器が含まれている。
最新の2つのデータセットと挑戦的なデータセットに対して、魅力的な結果を得ることができる。
論文 参考訳(メタデータ) (2022-03-07T00:32:37Z) - Learning to Infer Unseen Attribute-Object Compositions [55.58107964602103]
単一属性と多属性オブジェクトの両方を柔軟に認識できるグラフベースモデルを提案する。
我々は116,099の画像と8,030の合成カテゴリを持つ大規模マルチ属性データセットを構築した。
論文 参考訳(メタデータ) (2020-10-27T14:57:35Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。