論文の概要: SSPNet: Scale and Spatial Priors Guided Generalizable and Interpretable
Pedestrian Attribute Recognition
- arxiv url: http://arxiv.org/abs/2312.06049v1
- Date: Mon, 11 Dec 2023 00:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:15:14.308574
- Title: SSPNet: Scale and Spatial Priors Guided Generalizable and Interpretable
Pedestrian Attribute Recognition
- Title(参考訳): sspnet: 一般化および解釈可能な歩行者属性認識のためのスケールおよび空間優先
- Authors: Jifeng Shen, Teng Guo, Xin Zuo, Heng Fan, and Wankou Yang
- Abstract要約: Pedestrian Attribute Recognition(PAR)モデルに対して,SSPNet(Scale and Spatial Priors Guided Network)を提案する。
SSPNetは、異なる属性グループに対して適切なスケールの事前情報を提供することを学び、モデルが異なるレベルの機能マップに集中できるようにする。
Weakly-supervised Pedestrian Attribute Localization (WPAL) に対して, 属性応答マスクのGrad-CAMの改良に基づく新しいIoU属性ローカライゼーション指標を提案する。
- 参考スコア(独自算出の注目度): 23.55622798950833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Global feature based Pedestrian Attribute Recognition (PAR) models are often
poorly localized when using Grad-CAM for attribute response analysis, which has
a significant impact on the interpretability, generalizability and performance.
Previous researches have attempted to improve generalization and interpretation
through meticulous model design, yet they often have neglected or underutilized
effective prior information crucial for PAR. To this end, a novel Scale and
Spatial Priors Guided Network (SSPNet) is proposed for PAR, which is mainly
composed of the Adaptive Feature Scale Selection (AFSS) and Prior Location
Extraction (PLE) modules. The AFSS module learns to provide reasonable scale
prior information for different attribute groups, allowing the model to focus
on different levels of feature maps with varying semantic granularity. The PLE
module reveals potential attribute spatial prior information, which avoids
unnecessary attention on irrelevant areas and lowers the risk of model
over-fitting. More specifically, the scale prior in AFSS is adaptively learned
from different layers of feature pyramid with maximum accuracy, while the
spatial priors in PLE can be revealed from part feature with different
granularity (such as image blocks, human pose keypoint and sparse sampling
points). Besides, a novel IoU based attribute localization metric is proposed
for Weakly-supervised Pedestrian Attribute Localization (WPAL) based on the
improved Grad-CAM for attribute response mask. The experimental results on the
intra-dataset and cross-dataset evaluations demonstrate the effectiveness of
our proposed method in terms of mean accuracy (mA). Furthermore, it also
achieves superior performance on the PCS dataset for attribute localization in
terms of IoU. Code will be released at https://github.com/guotengg/SSPNet.
- Abstract(参考訳): グローバル機能に基づくPedestrian Attribute Recognition (PAR)モデルは、属性応答解析にGrad-CAMを使用する場合、多くの場合、ローカライズが不十分である。
これまでの研究は、細心の注意深いモデル設計による一般化と解釈の改善を試みてきたが、しばしばparにとって重要な効果的な事前情報を無視または過小に使用していた。
この目的のために、適応的特徴尺度選択(AFSS)と事前位置抽出(PLE)モジュールからなるPARに対して、新しいスケール・空間優先ネットワーク(SSPNet)を提案する。
AFSSモジュールは、異なる属性グループに対して適切なスケールの事前情報を提供することを学び、モデルがさまざまなセマンティックな粒度を持つ異なるレベルの機能マップに集中できるようにする。
PLEモジュールは、非関連領域への不要な注意を回避し、モデルオーバーフィットのリスクを低減する、潜在的な属性空間的事前情報を明らかにする。
より具体的には、AFSSの先行するスケールは、最大精度で様々な特徴ピラミッドの層から適応的に学習され、PLEの空間的事前は、異なる粒度(画像ブロック、人間のポーズキーポイント、スパースサンプリングポイントなど)から明らかにすることができる。
また, 属性応答マスクの改良したGrad-CAMに基づくWPALに対して, 新たなIoU属性の局所化指標を提案する。
その結果,提案手法の有効性を平均精度 (ma) を用いて実証した。
さらに、IoUの属性ローカライゼーションのためのPCSデータセットでも優れた性能を実現している。
コードはhttps://github.com/guotengg/sspnetでリリースされる。
関連論文リスト
- `Eyes of a Hawk and Ears of a Fox': Part Prototype Network for Generalized Zero-Shot Learning [47.1040786932317]
一般化ゼロショット学習(GZSL)における現在のアプローチは、画像全体に対する単一のクラス属性ベクトル表現のみを考慮したベースモデル上に構築されている。
属性情報に敏感なVINVL(Pre-trained Vision-Language Detector)を用いて,地域特性を効率的に取得する。
学習された関数は、その領域の特徴を、クラス部分プロトタイプを構築するために使われる地域固有の属性アテンションにマップする。
論文 参考訳(メタデータ) (2024-04-12T18:37:00Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Attribute Localization and Revision Network for Zero-Shot Learning [13.530912616208722]
ゼロショット学習により、モデルは属性などの補助的な意味情報の助けを借りて、目に見えないカテゴリを認識できる。
本稿では,局所的な特徴とグローバルな特徴の選択がゼロサムゲームではなく,グローバルな特徴が属性の理解に寄与することを発見した。
論文 参考訳(メタデータ) (2023-10-11T14:50:52Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Calibrated Feature Decomposition for Generalizable Person
Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。
キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-11-27T17:12:43Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Towards Better Object Detection in Scale Variation with Adaptive Feature
Selection [3.5352273012717044]
チャネル次元の多レベル表現を融合する方法を自動学習する新しい適応的特徴選択モジュール(AFSM)を提案する。
これは、特徴ピラミッド構造を持つ検出器の性能を著しく向上させる。
クラス不均衡問題に対処するために,クラス対応サンプリング機構(CASM)を提案する。
論文 参考訳(メタデータ) (2020-12-06T13:41:20Z) - Controlling for sparsity in sparse factor analysis models: adaptive
latent feature sharing for piecewise linear dimensionality reduction [2.896192909215469]
本稿では,現在潜伏している特徴分解技術の鍵となる限界に対処できる,シンプルでトラクタブルな特徴割り当てモデルを提案する。
適応型因子分析(aFA)と適応型確率的原理成分分析(aPPCA)を応用し,柔軟な構造発見と次元減少を実現する。
APPCAとaFAは、生のMNISTに適用した場合と、オートエンコーダの特徴を解釈する場合の両方において、高いレベルの特徴を推測できることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:09:11Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。