論文の概要: Adversarial Semantic and Label Perturbation Attack for Pedestrian Attribute Recognition
- arxiv url: http://arxiv.org/abs/2505.23313v1
- Date: Thu, 29 May 2025 10:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.807264
- Title: Adversarial Semantic and Label Perturbation Attack for Pedestrian Attribute Recognition
- Title(参考訳): 歩行者属性認識における逆行性摂動とラベル摂動障害
- Authors: Weizhe Kong, Xiao Wang, Ruichong Gao, Chenglong Li, Yu Zhang, Xing Yang, Yaowei Wang, Jin Tang,
- Abstract要約: 本稿では,歩行者属性認識のための最初の対角攻撃と防御の枠組みを提案する。
事前に訓練されたCLIPベースのPARフレームワークに基づいて,歩行者画像に対するグローバルおよびパッチレベルの攻撃を併用する。
また、敵攻撃の影響を抑えるために、セマンティックオフセット防衛戦略を設計する。
- 参考スコア(独自算出の注目度): 42.36333049201237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian Attribute Recognition (PAR) is an indispensable task in human-centered research and has made great progress in recent years with the development of deep neural networks. However, the potential vulnerability and anti-interference ability have still not been fully explored. To bridge this gap, this paper proposes the first adversarial attack and defense framework for pedestrian attribute recognition. Specifically, we exploit both global- and patch-level attacks on the pedestrian images, based on the pre-trained CLIP-based PAR framework. It first divides the input pedestrian image into non-overlapping patches and embeds them into feature embeddings using a projection layer. Meanwhile, the attribute set is expanded into sentences using prompts and embedded into attribute features using a pre-trained CLIP text encoder. A multi-modal Transformer is adopted to fuse the obtained vision and text tokens, and a feed-forward network is utilized for attribute recognition. Based on the aforementioned PAR framework, we adopt the adversarial semantic and label-perturbation to generate the adversarial noise, termed ASL-PAR. We also design a semantic offset defense strategy to suppress the influence of adversarial attacks. Extensive experiments conducted on both digital domains (i.e., PETA, PA100K, MSP60K, RAPv2) and physical domains fully validated the effectiveness of our proposed adversarial attack and defense strategies for the pedestrian attribute recognition. The source code of this paper will be released on https://github.com/Event-AHU/OpenPAR.
- Abstract(参考訳): Pedestrian Attribute Recognition (PAR)は、人間中心の研究において必須のタスクであり、近年、ディープニューラルネットワークの開発で大きな進歩を遂げている。
しかしながら、潜在的な脆弱性と反干渉能力は、まだ完全には調査されていない。
このギャップを埋めるために,歩行者属性認識のための最初の敵攻撃と防御の枠組みを提案する。
具体的には、事前訓練されたCLIPベースのPARフレームワークに基づいて、歩行者画像に対するグローバルレベルの攻撃とパッチレベルの攻撃の両方を利用する。
まず、入力された歩行者画像を非重複パッチに分割し、プロジェクション層を使用して特徴埋め込みに埋め込みます。
一方、属性セットはプロンプトを使用して文に拡張され、事前訓練されたCLIPテキストエンコーダを使用して属性機能に埋め込まれる。
得られたビジョンとテキストトークンを融合させるマルチモーダルトランスフォーマーを採用し、属性認識にフィードフォワードネットワークを利用する。
上述のPARフレームワークに基づいて、ASL-PARと呼ばれる対向雑音を生成するために、対向意味とラベル摂動を採用する。
また、敵攻撃の影響を抑えるために、セマンティックオフセット防衛戦略を設計する。
デジタルドメイン(PETA, PA100K, MSP60K, RAPv2)と物理的ドメインの両方で実施した広範囲な実験は, 歩行者属性認識のための敵攻撃と防御戦略の有効性を十分に検証した。
この論文のソースコードはhttps://github.com/Event-AHU/OpenPARで公開される。
関連論文リスト
- Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。
現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。
具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文 参考訳(メタデータ) (2024-06-16T13:29:41Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。
提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文 参考訳(メタデータ) (2023-12-17T11:59:14Z) - Defending Adversarial Patches via Joint Region Localizing and Inpainting [16.226410937026685]
様々な敵パッチ攻撃に対して,交通標識の分類と検出を行う一連の実験を行った。
入力サンプルを前処理するための「局所化・塗装」機構に基づく新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2023-07-26T15:11:51Z) - PASS: Protected Attribute Suppression System for Mitigating Bias in Face
Recognition [55.858374644761525]
顔認識ネットワークは、識別分類のために訓練されている間、機密属性に関する情報を符号化する。
既存のバイアス緩和アプローチでは、エンドツーエンドのトレーニングが必要であり、高い精度を達成できない。
PASS(Protected Attribute Suppression System)と呼ばれる記述子に基づく逆バイアス除去手法を提案する。
パスは、以前に訓練されたハイパフォーマンスネットワークから得られた記述子を使って、アイデンティティを分類し、機密属性のエンコーディングを同時に削減することができる。
論文 参考訳(メタデータ) (2021-08-09T00:39:22Z) - Open-set Adversarial Defense [93.25058425356694]
オープンセット認識システムは敵攻撃に対して脆弱であることを示す。
本研究の目的は,OSAD(Open-Set Adrial Defense, Open-Set Adrial Defense)機構の必要性である。
本稿はOSAD問題に対する解決策として,OSDN(Open-Set Defense Network)を提案する。
論文 参考訳(メタデータ) (2020-09-02T04:35:33Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。