論文の概要: SequencePAR: Understanding Pedestrian Attributes via A Sequence
Generation Paradigm
- arxiv url: http://arxiv.org/abs/2312.01640v1
- Date: Mon, 4 Dec 2023 05:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:26:03.342973
- Title: SequencePAR: Understanding Pedestrian Attributes via A Sequence
Generation Paradigm
- Title(参考訳): SequencePAR:シーケンス生成パラダイムによる歩行者属性の理解
- Authors: Jiandong Jin, Xiao Wang, Chenglong Li, Lili Huang, and Jin Tang
- Abstract要約: 本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。
事前トレーニングされたCLIPモデルを使用して歩行者機能を抽出し、テキストプロンプトのガイダンスの下で、属性セットをクエリトークンに埋め込む。
マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながら、モデルが次の属性を思い出すのを防ぐ。
- 参考スコア(独自算出の注目度): 18.53048511206039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current pedestrian attribute recognition (PAR) algorithms are developed based
on multi-label or multi-task learning frameworks, which aim to discriminate the
attributes using specific classification heads. However, these discriminative
models are easily influenced by imbalanced data or noisy samples. Inspired by
the success of generative models, we rethink the pedestrian attribute
recognition scheme and believe the generative models may perform better on
modeling dependencies and complexity between human attributes. In this paper,
we propose a novel sequence generation paradigm for pedestrian attribute
recognition, termed SequencePAR. It extracts the pedestrian features using a
pre-trained CLIP model and embeds the attribute set into query tokens under the
guidance of text prompts. Then, a Transformer decoder is proposed to generate
the human attributes by incorporating the visual features and attribute query
tokens. The masked multi-head attention layer is introduced into the decoder
module to prevent the model from remembering the next attribute while making
attribute predictions during training. Extensive experiments on multiple widely
used pedestrian attribute recognition datasets fully validated the
effectiveness of our proposed SequencePAR. The source code and pre-trained
models will be released at https://github.com/Event-AHU/OpenPAR.
- Abstract(参考訳): 特定の分類ヘッドを用いて属性を識別することを目的とした,多ラベル・マルチタスク学習フレームワークに基づいて,現在の歩行者属性認識(PAR)アルゴリズムを開発した。
しかし、これらの判別モデルは、不均衡データやノイズサンプルの影響が容易に受けられる。
生成モデルの成功に触発されて、歩行者属性認識スキームを再考し、生成モデルが人間の属性間の依存関係や複雑さのモデリングにおいてより良く機能すると信じている。
本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。
事前学習されたクリップモデルを使用して歩行者の特徴を抽出し、テキストプロンプトのガイダンスの下でクエリトークンにセットされた属性を埋め込む。
次に、視覚特徴と属性クエリトークンを組み込んでヒューマン属性を生成するトランスフォーマデコーダを提案する。
マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながらモデルが次の属性を思い出すのを防ぐ。
複数の歩行者属性認識データセットを用いた広範囲な実験により,提案手法の有効性が検証された。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/OpenPAR.comでリリースされる。
関連論文リスト
- Adaptive Prototype Model for Attribute-based Multi-label Few-shot Action Recognition [11.316708754749103]
現実世界の行動認識システムでは、より多くの属性を組み込むことで、人間の行動をより包括的に理解できるようになる。
本稿では,人間行動認識のためのアダプティブ属性プロトタイプモデル(AAPM)を提案する。
AAPMは属性に基づく複数ラベルの複数ショットのアクション認識と単一ラベルの少数ショットのアクション認識の両方において、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-18T06:39:28Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Exploring Diffusion Time-steps for Unsupervised Representation Learning [72.43246871893936]
拡散時間ステップと隠れ属性を結合する理論的枠組みを構築する。
CelebA、FFHQ、Bedroomのデータセットでは、学習された機能は分類を大幅に改善する。
論文 参考訳(メタデータ) (2024-01-21T08:35:25Z) - POAR: Towards Open Vocabulary Pedestrian Attribute Recognition [39.399286703315745]
歩行者属性認識(PAR)は、監視システムにおける歩行者の属性を予測することを目的としている。
現実世界のすべての歩行者属性を消耗することは不可能である。
我々は,新しい歩行者用オープンアトリビュート認識フレームワークを開発した。
論文 参考訳(メタデータ) (2023-03-26T06:59:23Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features
with Attribute Augmentation [21.72622601533585]
多様な特徴を合成してゼロショット学習(ZSL)を促進する新しいフレームワークを提案する。
本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。
提案したモデルを4つのベンチマークデータセット上で評価し,現状に対する大幅な性能改善を観察した。
論文 参考訳(メタデータ) (2021-12-23T14:32:51Z) - Efficient Attribute Injection for Pretrained Language Models [20.39972635495006]
事前学習言語モデル(PLM)に属性を注入する軽量でメモリ効率のよい手法を提案する。
属性語彙が大きければ特にパラメータの増加を制限するために,低ランク近似と超複素乗算を用いる。
提案手法は, 従来の属性注入法より優れ, 各種データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-16T13:08:24Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。