論文の概要: UniPAR: A Unified Framework for Pedestrian Attribute Recognition
- arxiv url: http://arxiv.org/abs/2603.05114v1
- Date: Thu, 05 Mar 2026 12:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.222573
- Title: UniPAR: A Unified Framework for Pedestrian Attribute Recognition
- Title(参考訳): UniPAR: 歩行者属性認識のための統一フレームワーク
- Authors: Minghe Xu, Rouying Wu, Jiarui Xu, Minhao Sun, Zikang Yan, Xiao Wang, ChiaWei Chu, Yu Li,
- Abstract要約: 歩行者属性認識のための統合トランスフォーマーベースのフレームワークUniPARを提案する。
統一されたデータスケジューリング戦略と動的分類ヘッドを組み込むことで、UniPARは単一のモデルで多様なデータセットを同時に処理できる。
MSP60K、DukeMTMC、EventPARなど、広く使われているベンチマークデータセットの実験結果は、UniPARが特別なSOTAメソッドに匹敵するパフォーマンスを達成することを実証している。
- 参考スコア(独自算出の注目度): 14.613498516126498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pedestrian Attribute Recognition is a foundational computer vision task that provides essential support for downstream applications, including person retrieval in video surveillance and intelligent retail analytics. However, existing research is frequently constrained by the ``one-model-per-dataset" paradigm and struggles to handle significant discrepancies across domains in terms of modalities, attribute definitions, and environmental scenarios. To address these challenges, we propose UniPAR, a unified Transformer-based framework for PAR. By incorporating a unified data scheduling strategy and a dynamic classification head, UniPAR enables a single model to simultaneously process diverse datasets from heterogeneous modalities, including RGB images, video sequences, and event streams. We also introduce an innovative phased fusion encoder that explicitly aligns visual features with textual attribute queries through a late deep fusion strategy. Experimental results on the widely used benchmark datasets, including MSP60K, DukeMTMC, and EventPAR, demonstrate that UniPAR achieves performance comparable to specialized SOTA methods. Furthermore, multi-dataset joint training significantly enhances the model's cross-domain generalization and recognition robustness in extreme environments characterized by low light and motion blur. The source code of this paper will be released on https://github.com/Event-AHU/OpenPAR
- Abstract(参考訳): 歩行者属性認識(Pedestrian Attribute Recognition)は、ビデオ監視やインテリジェント小売分析など、下流アプリケーションに不可欠なサポートを提供する基礎的なコンピュータビジョンタスクである。
しかし、既存の研究は '1-model-per-dataset' パラダイムにしばしば制約されており、モダリティ、属性定義、環境シナリオの観点から、ドメイン間の大きな不一致を扱うのに苦労している。
これらの課題に対処するために、PARのための統合トランスフォーマーベースのフレームワークUniPARを提案する。
統一されたデータスケジューリング戦略と動的分類ヘッドを組み込むことで、UniPARは単一のモデルでRGB画像、ビデオシーケンス、イベントストリームを含む不均一なモダリティから多様なデータセットを同時に処理することができる。
我々はまた、後期の深層融合戦略を通じて、視覚特徴とテキスト属性クエリを明確に整合させる革新的な位相融合エンコーダも導入した。
MSP60K、DukeMTMC、EventPARなど、広く使われているベンチマークデータセットの実験結果は、UniPARが特別なSOTAメソッドに匹敵するパフォーマンスを達成することを実証している。
さらに、マルチデータセット共同トレーニングは、低光と運動のぼやけを特徴とする極端環境におけるモデルのクロスドメイン一般化と認識ロバスト性を大幅に向上させる。
この論文のソースコードはhttps://github.com/Event-AHU/OpenPARで公開される。
関連論文リスト
- EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - A Data-Centric Approach to Pedestrian Attribute Recognition: Synthetic Augmentation via Prompt-driven Diffusion Models [41.58360335940522]
Pedestrian Attribute Recognition (PAR) は、実世界のデータにおいて、多くの属性にまたがってモデルを一般化する必要があるため、難しい課題である。
テキスト記述によって導かれる合成データ拡張によるPAR改善のためのデータ中心型アプローチを提案する。
論文 参考訳(メタデータ) (2025-09-02T08:56:39Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - Self-Organizing Visual Prototypes for Non-Parametric Representation Learning [6.096888891865663]
本稿では、教師なし視覚特徴学習のための新しい訓練手法である自己組織化視覚プロトタイプ(SOP)を提案する。
この戦略では、プロトタイプは多くの意味論的に類似した表現で表現され、それぞれが補完的な機能のセットを含む組込み(SE)をサポートする。
我々は,SOP戦略を用いて学習した表現を,検索,線形評価,微調整,オブジェクト検出など,様々なベンチマークで評価する。
論文 参考訳(メタデータ) (2025-05-23T20:12:07Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework [20.19599141770658]
既存の歩行者属性認識法は一般にRGBフレームカメラに基づいて開発されている。
本稿では,低照度,高速,低消費電力のイベントカメラの利点から着想を得たマルチモーダルなRGB-Event属性認識タスクを提案する。
具体的には,大規模な歩行者属性認識データセットであるEventPARを紹介する。
論文 参考訳(メタデータ) (2025-04-14T09:22:16Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [83.35198885088093]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - FissionVAE: Federated Non-IID Image Generation with Latent Space and Decoder Decomposition [8.444515700910879]
フェデレートされた学習により、分散化されたクライアントは、すべてのトレーニングデータをローカルに保ちながら、共有モデルを共同で学習することができる。
本稿では,異なるタイプの複数の画像群を特徴とする非IIDデータ環境の課題に対処する。
本稿では、潜在空間を分離し、個々のクライアントグループに適したデコーダブランチを構築するFissionVAEを紹介する。
論文 参考訳(メタデータ) (2024-08-30T08:22:30Z) - Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework [15.991114464911844]
過去5年間で、大規模なデータセットは公開されていない。
本稿では,大規模・クロスドメインな歩行者属性認識データセット MSP60K を提案する。
8つのシナリオにまたがる60,122のイメージと57の属性アノテーションで構成されている。
論文 参考訳(メタデータ) (2024-08-19T06:19:31Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。