論文の概要: RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework
- arxiv url: http://arxiv.org/abs/2504.10018v1
- Date: Mon, 14 Apr 2025 09:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:51.793879
- Title: RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework
- Title(参考訳): RGBイベントに基づく歩行者属性認識:ベンチマークデータセットと非対称RWKV融合フレームワーク
- Authors: Xiao Wang, Haiyang Wang, Shiao Wang, Qiang Chen, Jiandong Jin, Haoyu Song, Bo Jiang, Chenglong Li,
- Abstract要約: 既存の歩行者属性認識法は一般にRGBフレームカメラに基づいて開発されている。
本稿では,低照度,高速,低消費電力のイベントカメラの利点から着想を得たマルチモーダルなRGB-Event属性認識タスクを提案する。
具体的には,大規模な歩行者属性認識データセットであるEventPARを紹介する。
- 参考スコア(独自算出の注目度): 20.19599141770658
- License:
- Abstract: Existing pedestrian attribute recognition methods are generally developed based on RGB frame cameras. However, these approaches are constrained by the limitations of RGB cameras, such as sensitivity to lighting conditions and motion blur, which hinder their performance. Furthermore, current attribute recognition primarily focuses on analyzing pedestrians' external appearance and clothing, lacking an exploration of emotional dimensions. In this paper, we revisit these issues and propose a novel multi-modal RGB-Event attribute recognition task by drawing inspiration from the advantages of event cameras in low-light, high-speed, and low-power consumption. Specifically, we introduce the first large-scale multi-modal pedestrian attribute recognition dataset, termed EventPAR, comprising 100K paired RGB-Event samples that cover 50 attributes related to both appearance and six human emotions, diverse scenes, and various seasons. By retraining and evaluating mainstream PAR models on this dataset, we establish a comprehensive benchmark and provide a solid foundation for future research in terms of data and algorithmic baselines. In addition, we propose a novel RWKV-based multi-modal pedestrian attribute recognition framework, featuring an RWKV visual encoder and an asymmetric RWKV fusion module. Extensive experiments are conducted on our proposed dataset as well as two simulated datasets (MARS-Attribute and DukeMTMC-VID-Attribute), achieving state-of-the-art results. The source code and dataset will be released on https://github.com/Event-AHU/OpenPAR
- Abstract(参考訳): 既存の歩行者属性認識法は一般にRGBフレームカメラに基づいて開発されている。
しかし、これらのアプローチは、照明条件に対する感度や動作のぼかしなどのRGBカメラの限界によって制約され、性能を損なう。
さらに、現在の属性認識は、主に歩行者の外見や衣服の分析に焦点を合わせ、感情的な次元の探索を欠いている。
本稿では、これらの課題を再考し、低照度、高速、低消費電力のイベントカメラの利点から着想を得て、新しいマルチモーダルなRGB-Event属性認識タスクを提案する。
具体的には、100万対のRGB-Eventサンプルからなる、最初の大規模マルチモーダル歩行者属性認識データセットであるEventPARを紹介し、外見と6つの人間の感情、多様なシーン、さまざまな季節に関する50の属性をカバーしている。
このデータセット上で、主要なPARモデルをトレーニングし、評価することにより、包括的なベンチマークを確立し、データとアルゴリズムのベースラインの観点から将来の研究のための確かな基盤を提供する。
さらに、RWKVの視覚エンコーダと非対称なRWKV融合モジュールを備えた、RWKVベースのマルチモーダル歩行者属性認識フレームワークを提案する。
提案したデータセットと2つのシミュレーションデータセット (MARS-Attribute と DukeMTMC-VID-Attribute) を用いて実験を行い, 最先端の結果を得た。
ソースコードとデータセットはhttps://github.com/Event-AHU/OpenPARで公開される。
関連論文リスト
- VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset [40.24765100535353]
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-14T09:16:49Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition [42.118434116034194]
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
論文 参考訳(メタデータ) (2023-08-08T16:15:35Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。