論文の概要: Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework
- arxiv url: http://arxiv.org/abs/2408.09720v1
- Date: Mon, 19 Aug 2024 06:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:24:20.010090
- Title: Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework
- Title(参考訳): Pedestrian Attribute Recognition: 新しいベンチマークデータセットと大規模言語モデル拡張フレームワーク
- Authors: Jiandong Jin, Xiao Wang, Qian Zhu, Haiyang Wang, Chenglong Li,
- Abstract要約: 過去5年間で、大規模なデータセットは公開されていない。
本稿では,大規模・クロスドメインな歩行者属性認識データセット MSP60K を提案する。
8つのシナリオにまたがる60,122のイメージと57の属性アノテーションで構成されている。
- 参考スコア(独自算出の注目度): 15.991114464911844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian Attribute Recognition (PAR) is one of the indispensable tasks in human-centered research. However, existing datasets neglect different domains (e.g., environments, times, populations, and data sources), only conducting simple random splits, and the performance of these datasets has already approached saturation. In the past five years, no large-scale dataset has been opened to the public. To address this issue, this paper proposes a new large-scale, cross-domain pedestrian attribute recognition dataset to fill the data gap, termed MSP60K. It consists of 60,122 images and 57 attribute annotations across eight scenarios. Synthetic degradation is also conducted to further narrow the gap between the dataset and real-world challenging scenarios. To establish a more rigorous benchmark, we evaluate 17 representative PAR models under both random and cross-domain split protocols on our dataset. Additionally, we propose an innovative Large Language Model (LLM) augmented PAR framework, named LLM-PAR. This framework processes pedestrian images through a Vision Transformer (ViT) backbone to extract features and introduces a multi-embedding query Transformer to learn partial-aware features for attribute classification. Significantly, we enhance this framework with LLM for ensemble learning and visual feature augmentation. Comprehensive experiments across multiple PAR benchmark datasets have thoroughly validated the efficacy of our proposed framework. The dataset and source code accompanying this paper will be made publicly available at \url{https://github.com/Event-AHU/OpenPAR}.
- Abstract(参考訳): 歩行者属性認識(Pedestrian Attribute Recognition、PAR)は、人間中心の研究において欠かせない課題の一つである。
しかし、既存のデータセットは異なるドメイン(環境、時間、人口、データソースなど)を無視し、単純なランダムな分割のみを実行し、これらのデータセットのパフォーマンスはすでに飽和状態に近づいている。
過去5年間で、大規模なデータセットは公開されていない。
そこで本研究では,MSP60Kと呼ばれるデータギャップを埋めるための,大規模でクロスドメインな歩行者属性認識データセットを提案する。
8つのシナリオにまたがる60,122のイメージと57の属性アノテーションで構成されている。
また、データセットと現実の課題シナリオの間のギャップをさらに狭めるために、合成劣化を行う。
より厳密なベンチマークを確立するため、データセット上でランダムおよびクロスドメインの分割プロトコルの下で17の代表的なPARモデルを評価した。
さらに,LLM-PAR(Large Language Model, LLM)拡張PARフレームワークを提案する。
このフレームワークは、視覚変換器(ViT)のバックボーンを介して歩行者画像を処理して特徴を抽出し、属性分類のための部分認識機能を学ぶためのマルチ埋め込みクエリ変換器を導入する。
重要なこととして、私たちはこのフレームワークをLLMで強化し、アンサンブル学習と視覚的特徴増強を実現した。
複数のPARベンチマークデータセットに対する総合的な実験は、提案フレームワークの有効性を徹底的に検証した。
この論文に付随するデータセットとソースコードは、 \url{https://github.com/Event-AHU/OpenPAR}で公開されます。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - ViLLA: Fine-Grained Vision-Language Representation Learning from
Real-World Data [8.905439446173503]
視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。
医療データなどの実世界のマルチモーダルデータセットは、はるかに複雑です。
ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
論文 参考訳(メタデータ) (2023-08-22T05:03:09Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Multi-Domain Multi-Definition Landmark Localization for Small Datasets [1.2691047660244332]
本稿では,小さなデータセットの顔位置推定のための,マルチ画像領域とマルチランドマーク定義学習のための新しい手法を提案する。
本稿では,前もって構造化された共有ランドマークセマンティックグループを持つ新規デコーダを用いたビジョントランスフォーマーエンコーダを提案する。
動物,似顔絵,顔絵などの様々な画像領域の小さなデータセットに対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2022-03-19T17:09:29Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - A Universal Representation Transformer Layer for Few-Shot Image
Classification [43.31379752656756]
少ないショット分類は、少数のサンプルで示される場合、目に見えないクラスを認識することを目的としている。
本稿では,多様なデータソースから未確認のクラスやサンプルを抽出するマルチドメイン・少数ショット画像分類の問題点について考察する。
そこで本研究では,メタ学習者がユニバーサルな特徴を活用できるユニバーサル表現変換器層を提案する。
論文 参考訳(メタデータ) (2020-06-21T03:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。