論文の概要: An Attention-Based Deep Learning Model for Multiple Pedestrian
Attributes Recognition
- arxiv url: http://arxiv.org/abs/2004.01110v1
- Date: Thu, 2 Apr 2020 16:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:45:40.351657
- Title: An Attention-Based Deep Learning Model for Multiple Pedestrian
Attributes Recognition
- Title(参考訳): 複数の歩行者属性認識のための注意に基づくディープラーニングモデル
- Authors: Ehsan Yaghoubi, Diana Borza, Jo\~ao Neves, Aruna Kumar, Hugo
Proen\c{c}a
- Abstract要約: 本稿では,監視映像における歩行者の自動特徴付け問題に対する新しい解決策を提供する。
本稿では,より包括的な特徴表現を抽出するために,要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。
実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。
- 参考スコア(独自算出の注目度): 4.6898263272139795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic characterization of pedestrians in surveillance footage is a
tough challenge, particularly when the data is extremely diverse with cluttered
backgrounds, and subjects are captured from varying distances, under multiple
poses, with partial occlusion. Having observed that the state-of-the-art
performance is still unsatisfactory, this paper provides a novel solution to
the problem, with two-fold contributions: 1) considering the strong semantic
correlation between the different full-body attributes, we propose a multi-task
deep model that uses an element-wise multiplication layer to extract more
comprehensive feature representations. In practice, this layer serves as a
filter to remove irrelevant background features, and is particularly important
to handle complex, cluttered data; and 2) we introduce a weighted-sum term to
the loss function that not only relativizes the contribution of each task (kind
of attributed) but also is crucial for performance improvement in
multiple-attribute inference settings. Our experiments were performed on two
well-known datasets (RAP and PETA) and point for the superiority of the
proposed method with respect to the state-of-the-art. The code is available at
https://github.com/Ehsan-Yaghoubi/MAN-PAR-.
- Abstract(参考訳): 監視映像における歩行者の自動キャラクタリゼーションは難しい課題であり、特にデータがバラバラな背景で非常に多様であり、被験者は複数のポーズで、部分的な閉塞を伴う様々な距離から撮影される。
現状の成果がまだ不十分であることに気付き、本論文は、この問題に対する新しい解決策を2倍のコントリビューションで提供する。
1) 異なる全体属性間の強い意味的相関を考慮し, より包括的特徴表現を抽出するために, 要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。
実際には、このレイヤは無関係なバックグラウンド特徴を取り除くフィルタとして機能し、複雑で散らばったデータを扱うことが特に重要である。
2) 各タスク(属性の種類)の寄与を相対化するだけでなく,複数属性の推論設定における性能向上にも重要である損失関数に重み付きサム項を導入する。
実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。
コードはhttps://github.com/Ehsan-Yaghoubi/MAN-PAR-で公開されている。
関連論文リスト
- Topological Persistence Guided Knowledge Distillation for Wearable Sensor Data [15.326571438985466]
トポロジカルデータ解析(TDA)によって得られるトポロジカルな特徴は潜在的な解決策として提案されている。
深層学習にトポロジ的特徴を用いることには2つの大きな障害がある。
そこで本研究では,生の時系列データに基づいてトレーニングした教師ネットワークと,TDA法により生成された永続性画像に基づいてトレーニングした教師ネットワークの2つを提案する。
頑健な学生モデルを蒸留し、トポロジ的特徴を暗黙的に保存しながら、時系列データのみを入力として使用する。
論文 参考訳(メタデータ) (2024-07-07T10:08:34Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - One for All: An End-to-End Compact Solution for Hand Gesture Recognition [8.321276216978637]
本稿では,手動ジェスチャー認識のための細粒度特徴注意ネットワーク(Fit-Hand)をエンド・ツー・エンドのコンパクトCNNフレームワークとして提案する。
提案されたアーキテクチャのパイプラインは、FineFeatモジュールと拡張畳み込み層(Conv)の2つの主要なユニットで構成されています。
Fit-Handの有効性は、7つのベンチマークデータセット上の主観依存(SD)および主観独立(SI)検証セットアップを使用して評価される。
論文 参考訳(メタデータ) (2021-05-15T05:10:47Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。