論文の概要: PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition
- arxiv url: http://arxiv.org/abs/2304.07230v1
- Date: Fri, 14 Apr 2023 16:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 12:58:25.915352
- Title: PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition
- Title(参考訳): PARFormer:歩行者属性認識のためのトランスフォーマーベースのマルチタスクネットワーク
- Authors: Xinwen Fan, Yukang Zhang, Yang Lu, Hanzi Wang
- Abstract要約: 4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
- 参考スコア(独自算出の注目度): 23.814762073093153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pedestrian attribute recognition (PAR) has received increasing attention
because of its wide application in video surveillance and pedestrian analysis.
Extracting robust feature representation is one of the key challenges in this
task. The existing methods mainly use the convolutional neural network (CNN) as
the backbone network to extract features. However, these methods mainly focus
on small discriminative regions while ignoring the global perspective. To
overcome these limitations, we propose a pure transformer-based multi-task PAR
network named PARFormer, which includes four modules. In the feature extraction
module, we build a transformer-based strong baseline for feature extraction,
which achieves competitive results on several PAR benchmarks compared with the
existing CNN-based baseline methods. In the feature processing module, we
propose an effective data augmentation strategy named batch random mask (BRM)
block to reinforce the attentive feature learning of random patches.
Furthermore, we propose a multi-attribute center loss (MACL) to enhance the
inter-attribute discriminability in the feature representations. In the
viewpoint perception module, we explore the impact of viewpoints on pedestrian
attributes, and propose a multi-view contrastive loss (MCVL) that enables the
network to exploit the viewpoint information. In the attribute recognition
module, we alleviate the negative-positive imbalance problem to generate the
attribute predictions. The above modules interact and jointly learn a highly
discriminative feature space, and supervise the generation of the final
features. Extensive experimental results show that the proposed PARFormer
network performs well compared to the state-of-the-art methods on several
public datasets, including PETA, RAP, and PA100K. Code will be released at
https://github.com/xwf199/PARFormer.
- Abstract(参考訳): 歩行者属性認識(PAR)はビデオ監視や歩行者分析に広く応用されているため注目されている。
堅牢な特徴表現を抽出することが、このタスクの重要な課題のひとつです。
既存の手法は主に、バックボーンネットワークとして畳み込みニューラルネットワーク(CNN)を用いて特徴を抽出する。
しかし、これらの手法は主に世界観を無視しながら、小さな差別地域に焦点を当てている。
これらの制約を克服するため,我々は4つのモジュールを含む純粋トランスフォーマー型マルチタスクパーネットワークparformerを提案する。
特徴抽出モジュールでは,特徴抽出のためのトランスフォーマーベースラインを構築し,既存のCNNベースライン手法と比較して複数のPARベンチマークで競合する結果を得る。
特徴処理モジュールでは、乱数パッチの注意的特徴学習を強化するために、バッチランダムマスク(BRM)ブロックと呼ばれる効果的なデータ拡張戦略を提案する。
さらに,特徴表現における属性間識別性を高めるために,多属性中心損失(MACL)を提案する。
視点認識モジュールでは,視点が歩行者属性に与える影響を探索し,ネットワークが視点情報を活用できるマルチビューコントラスト損失(mcvl)を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和して属性予測を生成する。
上記のモジュールは、高度に識別的な特徴空間を相互に学習し、最終的な特徴の生成を監督する。
大規模な実験結果から,提案するPARFormerネットワークは,PETA,RAP,PA100Kなど,いくつかの公開データセットの最先端手法と比較して高い性能を示した。
コードはhttps://github.com/xwf199/PARFormerでリリースされる。
関連論文リスト
- Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization [9.90146712189936]
本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - M2IOSR: Maximal Mutual Information Open Set Recognition [47.1393314282815]
オープンセット認識のための合理化アーキテクチャを用いた相互情報に基づく手法を提案する。
提案手法は, ベースラインの性能を著しく向上させ, 連続したベンチマークによる新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2021-08-05T05:08:12Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。