論文の概要: SequencePAR: Understanding Pedestrian Attributes via A Sequence
Generation Paradigm
- arxiv url: http://arxiv.org/abs/2312.01640v1
- Date: Mon, 4 Dec 2023 05:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:26:03.342973
- Title: SequencePAR: Understanding Pedestrian Attributes via A Sequence
Generation Paradigm
- Title(参考訳): SequencePAR:シーケンス生成パラダイムによる歩行者属性の理解
- Authors: Jiandong Jin, Xiao Wang, Chenglong Li, Lili Huang, and Jin Tang
- Abstract要約: 本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。
事前トレーニングされたCLIPモデルを使用して歩行者機能を抽出し、テキストプロンプトのガイダンスの下で、属性セットをクエリトークンに埋め込む。
マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながら、モデルが次の属性を思い出すのを防ぐ。
- 参考スコア(独自算出の注目度): 18.53048511206039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current pedestrian attribute recognition (PAR) algorithms are developed based
on multi-label or multi-task learning frameworks, which aim to discriminate the
attributes using specific classification heads. However, these discriminative
models are easily influenced by imbalanced data or noisy samples. Inspired by
the success of generative models, we rethink the pedestrian attribute
recognition scheme and believe the generative models may perform better on
modeling dependencies and complexity between human attributes. In this paper,
we propose a novel sequence generation paradigm for pedestrian attribute
recognition, termed SequencePAR. It extracts the pedestrian features using a
pre-trained CLIP model and embeds the attribute set into query tokens under the
guidance of text prompts. Then, a Transformer decoder is proposed to generate
the human attributes by incorporating the visual features and attribute query
tokens. The masked multi-head attention layer is introduced into the decoder
module to prevent the model from remembering the next attribute while making
attribute predictions during training. Extensive experiments on multiple widely
used pedestrian attribute recognition datasets fully validated the
effectiveness of our proposed SequencePAR. The source code and pre-trained
models will be released at https://github.com/Event-AHU/OpenPAR.
- Abstract(参考訳): 特定の分類ヘッドを用いて属性を識別することを目的とした,多ラベル・マルチタスク学習フレームワークに基づいて,現在の歩行者属性認識(PAR)アルゴリズムを開発した。
しかし、これらの判別モデルは、不均衡データやノイズサンプルの影響が容易に受けられる。
生成モデルの成功に触発されて、歩行者属性認識スキームを再考し、生成モデルが人間の属性間の依存関係や複雑さのモデリングにおいてより良く機能すると信じている。
本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。
事前学習されたクリップモデルを使用して歩行者の特徴を抽出し、テキストプロンプトのガイダンスの下でクエリトークンにセットされた属性を埋め込む。
次に、視覚特徴と属性クエリトークンを組み込んでヒューマン属性を生成するトランスフォーマデコーダを提案する。
マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながらモデルが次の属性を思い出すのを防ぐ。
複数の歩行者属性認識データセットを用いた広範囲な実験により,提案手法の有効性が検証された。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/OpenPAR.comでリリースされる。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Exploring Diffusion Time-steps for Unsupervised Representation Learning [72.43246871893936]
拡散時間ステップと隠れ属性を結合する理論的枠組みを構築する。
CelebA、FFHQ、Bedroomのデータセットでは、学習された機能は分類を大幅に改善する。
論文 参考訳(メタデータ) (2024-01-21T08:35:25Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - A Solution to Co-occurrence Bias: Attributes Disentanglement via Mutual
Information Minimization for Pedestrian Attribute Recognition [10.821982414387525]
そこで本研究では,現在の手法が,データセット分布のシーンやアイデンティティに適合する属性の相互依存性の一般化に実際に苦慮していることを示す。
現実的な場面で頑健なモデルをレンダリングするために,属性不整形特徴学習を提案し,属性の認識が他者の存在に依存しないことを保証する。
論文 参考訳(メタデータ) (2023-07-28T01:34:55Z) - POAR: Towards Open Vocabulary Pedestrian Attribute Recognition [39.399286703315745]
歩行者属性認識(PAR)は、監視システムにおける歩行者の属性を予測することを目的としている。
現実世界のすべての歩行者属性を消耗することは不可能である。
我々は,新しい歩行者用オープンアトリビュート認識フレームワークを開発した。
論文 参考訳(メタデータ) (2023-03-26T06:59:23Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features
with Attribute Augmentation [21.72622601533585]
多様な特徴を合成してゼロショット学習(ZSL)を促進する新しいフレームワークを提案する。
本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。
提案したモデルを4つのベンチマークデータセット上で評価し,現状に対する大幅な性能改善を観察した。
論文 参考訳(メタデータ) (2021-12-23T14:32:51Z) - Efficient Attribute Injection for Pretrained Language Models [20.39972635495006]
事前学習言語モデル(PLM)に属性を注入する軽量でメモリ効率のよい手法を提案する。
属性語彙が大きければ特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用いる。
提案手法は, 従来の属性注入法より優れ, 各種データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-16T13:08:24Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。