論文の概要: POAR: Towards Open Vocabulary Pedestrian Attribute Recognition
- arxiv url: http://arxiv.org/abs/2303.14643v2
- Date: Mon, 7 Aug 2023 14:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:28:43.731202
- Title: POAR: Towards Open Vocabulary Pedestrian Attribute Recognition
- Title(参考訳): POAR:オープンな語彙ペデストリアン属性認識を目指して
- Authors: Yue Zhang, Suchen Wang, Shichao Kan, Zhenyu Weng, Yigang Cen, Yap-peng
Tan
- Abstract要約: 歩行者属性認識(PAR)は、監視システムにおける歩行者の属性を予測することを目的としている。
現実世界のすべての歩行者属性を消耗することは不可能である。
我々は,新しい歩行者用オープンアトリビュート認識フレームワークを開発した。
- 参考スコア(独自算出の注目度): 39.399286703315745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian attribute recognition (PAR) aims to predict the attributes of a
target pedestrian in a surveillance system. Existing methods address the PAR
problem by training a multi-label classifier with predefined attribute classes.
However, it is impossible to exhaust all pedestrian attributes in the real
world. To tackle this problem, we develop a novel pedestrian open-attribute
recognition (POAR) framework. Our key idea is to formulate the POAR problem as
an image-text search problem. We design a Transformer-based image encoder with
a masking strategy. A set of attribute tokens are introduced to focus on
specific pedestrian parts (e.g., head, upper body, lower body, feet, etc.) and
encode corresponding attributes into visual embeddings. Each attribute category
is described as a natural language sentence and encoded by the text encoder.
Then, we compute the similarity between the visual and text embeddings of
attributes to find the best attribute descriptions for the input images.
Different from existing methods that learn a specific classifier for each
attribute category, we model the pedestrian at a part-level and explore the
searching method to handle the unseen attributes. Finally, a many-to-many
contrastive (MTMC) loss with masked tokens is proposed to train the network
since a pedestrian image can comprise multiple attributes. Extensive
experiments have been conducted on benchmark PAR datasets with an
open-attribute setting. The results verified the effectiveness of the proposed
POAR method, which can form a strong baseline for the POAR task. Our code is
available at \url{https://github.com/IvyYZ/POAR}.
- Abstract(参考訳): 歩行者属性認識(PAR)は、監視システムにおける歩行者の属性を予測することを目的としている。
既存のメソッドは、事前に定義された属性クラスを持つマルチラベル分類器をトレーニングすることでpar問題に対処する。
しかし、現実世界の歩行者属性をすべて使い果たすことは不可能である。
この問題に対処するため,新しい歩行者用オープン属性認識(POAR)フレームワークを開発した。
私たちのキーとなる考え方は、画像テキスト検索問題としてPOAR問題を定式化することです。
マスク戦略を用いたトランスフォーマーベースの画像エンコーダを設計する。
特定の歩行者(例えば、頭、上体、下体、足など)に焦点を当て、対応する属性を視覚的な埋め込みにエンコードするために、一連の属性トークンが導入される。
各属性カテゴリは自然言語文として記述され、テキストエンコーダによってエンコードされる。
次に,属性の視覚埋め込みとテキスト埋め込みの類似度を計算し,入力画像に対して最適な属性記述を求める。
属性カテゴリごとに特定の分類器を学習する既存の方法とは異なり、歩行者を部分レベルでモデル化し、未知の属性を扱うための探索方法を探る。
最後に、歩行者画像が複数の属性を構成することができるため、マスク付きトークンによるMTMC損失をトレーニングするために提案する。
オープン属性の設定でベンチマークパーデータセットで広範な実験が行われている。
提案手法の有効性を検証し,POARタスクの強いベースラインを形成可能なPOAR手法の有効性を確認した。
私たちのコードは \url{https://github.com/IvyYZ/POAR} で利用可能です。
関連論文リスト
- MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search [19.610244285078483]
本稿では,テキスト属性と画像間の局所的な表現の対応を学習するためのAIMA(Attribute-Aware Implicit Modality Alignment)フレームワークを提案する。
提案手法は,現在の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-06-06T03:34:42Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - SequencePAR: Understanding Pedestrian Attributes via A Sequence
Generation Paradigm [18.53048511206039]
本稿では,歩行者属性認識のための新しいシーケンス生成パラダイム,SequencePARを提案する。
事前トレーニングされたCLIPモデルを使用して歩行者機能を抽出し、テキストプロンプトのガイダンスの下で、属性セットをクエリトークンに埋め込む。
マスク付きマルチヘッドアテンション層がデコーダモジュールに導入され、トレーニング中に属性予測を行いながら、モデルが次の属性を思い出すのを防ぐ。
論文 参考訳(メタデータ) (2023-12-04T05:42:56Z) - Learning Conditional Attributes for Compositional Zero-Shot Learning [78.24309446833398]
合成ゼロショット学習(CZSL)は、新しい合成概念を認識するためにモデルを訓練することを目的としている。
課題の1つは、異なる物体、例えば「濡れたリンゴ」と「濡れた猫」の属性をモデル化することである。
我々は、属性が認識対象と入力画像に条件付けされていることを議論し、条件付き属性の埋め込みを学習する。
論文 参考訳(メタデータ) (2023-05-29T08:04:05Z) - Learning CLIP Guided Visual-Text Fusion Transformer for Video-based
Pedestrian Attribute Recognition [23.748227536306295]
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
ビデオベースPARを視覚言語融合問題として定式化し,事前学習された大規模モデルCLIPを用いて,映像フレームの機能埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-04-20T05:18:28Z) - Label2Label: A Language Modeling Framework for Multi-Attribute Learning [93.68058298766739]
Label2Labelは、言語モデリングの観点からのマルチ属性予測の最初の試みである。
NLPにおける事前学習言語モデルの成功に触発されたLabel2Labelは、イメージ条件付きマスキング言語モデルを導入した。
我々の直感は、ニューラルネットワークがコンテキストと残りの属性ヒントに基づいて欠落した属性を推測できる場合、インスタンスの属性関係がよく把握されるということである。
論文 参考訳(メタデータ) (2022-07-18T15:12:33Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。