論文の概要: A Data-Centric Approach to Pedestrian Attribute Recognition: Synthetic Augmentation via Prompt-driven Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.02099v1
- Date: Tue, 02 Sep 2025 08:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.968893
- Title: A Data-Centric Approach to Pedestrian Attribute Recognition: Synthetic Augmentation via Prompt-driven Diffusion Models
- Title(参考訳): 歩行者属性認識のためのデータ中心的アプローチ:プロンプト駆動拡散モデルによる合成拡張
- Authors: Alejandro Alonso, Sawaiz A. Chaudhry, Juan C. SanMiguel, Álvaro García-Martín, Pablo Ayuso-Albizu, Pablo Carballeira,
- Abstract要約: Pedestrian Attribute Recognition (PAR) は、実世界のデータにおいて、多くの属性にまたがってモデルを一般化する必要があるため、難しい課題である。
テキスト記述によって導かれる合成データ拡張によるPAR改善のためのデータ中心型アプローチを提案する。
- 参考スコア(独自算出の注目度): 41.58360335940522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pedestrian Attribute Recognition (PAR) is a challenging task as models are required to generalize across numerous attributes in real-world data. Traditional approaches focus on complex methods, yet recognition performance is often constrained by training dataset limitations, particularly the under-representation of certain attributes. In this paper, we propose a data-centric approach to improve PAR by synthetic data augmentation guided by textual descriptions. First, we define a protocol to identify weakly recognized attributes across multiple datasets. Second, we propose a prompt-driven pipeline that leverages diffusion models to generate synthetic pedestrian images while preserving the consistency of PAR datasets. Finally, we derive a strategy to seamlessly incorporate synthetic samples into training data, which considers prompt-based annotation rules and modifies the loss function. Results on popular PAR datasets demonstrate that our approach not only boosts recognition of underrepresented attributes but also improves overall model performance beyond the targeted attributes. Notably, this approach strengthens zero-shot generalization without requiring architectural changes of the model, presenting an efficient and scalable solution to improve the recognition of attributes of pedestrians in the real world.
- Abstract(参考訳): Pedestrian Attribute Recognition (PAR) は、実世界のデータにおいて、多くの属性にまたがってモデルを一般化する必要があるため、難しい課題である。
従来のアプローチでは複雑なメソッドに重点を置いていたが、認識性能はデータセットの制限、特に属性の表現不足によって制約されることが多い。
本稿では,テキスト記述による合成データ拡張によるPAR改善のためのデータ中心型アプローチを提案する。
まず、複数のデータセットにまたがる弱い認識属性を識別するプロトコルを定義する。
第2に,PARデータセットの一貫性を維持しつつ,拡散モデルを利用して合成歩行者画像を生成するプロンプト駆動パイプラインを提案する。
最後に、素早いアノテーション規則を考慮し、損失関数を修正した学習データに、合成サンプルをシームレスに組み込む戦略を導出する。
PARデータセットの一般的な結果から,提案手法は,表現されていない属性の認識を促進させるだけでなく,対象属性を超越した全体的なモデル性能の向上も示している。
特に、このアプローチは、モデルのアーキテクチャ的な変更を必要とせず、ゼロショットの一般化を強化し、現実の歩行者の属性の認識を改善するための効率的でスケーラブルなソリューションを提供する。
関連論文リスト
- Advancing Semantic Caching for LLMs with Domain-Specific Embeddings and Synthetic Data [3.877325424485755]
本報告では, セマンティックキャッシングの精度向上を, 特別に調整された埋め込みモデルを用いて検討する。
そこで本研究では,ターゲットとした実世界と合成されたデータセットを微調整した,より小さなドメイン固有埋め込みモデルを提案する。
論文 参考訳(メタデータ) (2025-04-03T04:27:02Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAG-ReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Incorporating Attributes and Multi-Scale Structures for Heterogeneous Graph Contrastive Learning [8.889313669713918]
異種グラフのための新しいコントラスト学習フレームワーク(ASHGCL)を提案する。
ASHGCLには3つの異なるビューがあり、それぞれがノード属性、高階構造情報、低階構造情報に焦点を当てている。
本稿では,属性情報と属性情報を組み合わせた属性強化型正のサンプル選択手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T05:15:21Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - A Solution to Co-occurrence Bias: Attributes Disentanglement via Mutual
Information Minimization for Pedestrian Attribute Recognition [10.821982414387525]
そこで本研究では,現在の手法が,データセット分布のシーンやアイデンティティに適合する属性の相互依存性の一般化に実際に苦慮していることを示す。
現実的な場面で頑健なモデルをレンダリングするために,属性不整形特徴学習を提案し,属性の認識が他者の存在に依存しないことを保証する。
論文 参考訳(メタデータ) (2023-07-28T01:34:55Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。