論文の概要: GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation
and Multi-Scale Temporal Aggregation
- arxiv url: http://arxiv.org/abs/2307.15981v2
- Date: Wed, 21 Feb 2024 10:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:55:09.363789
- Title: GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation
and Multi-Scale Temporal Aggregation
- Title(参考訳): GaitASMS:適応型空間表現とマルチスケール時間集約による歩行認識
- Authors: Yan Sun, Hu Long, Xueling Feng, and Mark Nixon
- Abstract要約: 歩行認識は、最も有望なビデオベースの生体認証技術の一つである。
本稿では,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案する。
適応的な空間表現を効果的に抽出し、多スケールの時間情報を自然に集約することができる。
- 参考スコア(独自算出の注目度): 2.0444600042188448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is one of the most promising video-based biometric
technologies. The edge of silhouettes and motion are the most informative
feature and previous studies have explored them separately and achieved notable
results. However, due to occlusions and variations in viewing angles, their
gait recognition performance is often affected by the predefined spatial
segmentation strategy. Moreover, traditional temporal pooling usually neglects
distinctive temporal information in gait. To address the aforementioned issues,
we propose a novel gait recognition framework, denoted as GaitASMS, which can
effectively extract the adaptive structured spatial representations and
naturally aggregate the multi-scale temporal information. The Adaptive
Structured Representation Extraction Module (ASRE) separates the edge of
silhouettes by using the adaptive edge mask and maximizes the representation in
semantic latent space. Moreover, the Multi-Scale Temporal Aggregation Module
(MSTA) achieves effective modeling of long-short-range temporal information by
temporally aggregated structure. Furthermore, we propose a new data
augmentation, denoted random mask, to enrich the sample space of long-term
occlusion and enhance the generalization of the model. Extensive experiments
conducted on two datasets demonstrate the competitive advantage of proposed
method, especially in complex scenes, i.e. BG and CL. On the CASIA-B dataset,
GaitASMS achieves the average accuracy of 93.5\% and outperforms the baseline
on rank-1 accuracies by 3.4\% and 6.3\%, respectively, in BG and CL. The
ablation experiments demonstrate the effectiveness of ASRE and MSTA. The source
code is available at https://github.com/YanSungithub/GaitASMS.
- Abstract(参考訳): 歩行認識は、最も有望なビデオベースのバイオメトリック技術の一つである。
シルエットと動きの端は最も有意義な特徴であり、以前の研究ではこれらを別々に探索し、顕著な結果を得た。
しかし、咬合や視角の変化により、その歩行認識性能は予め定義された空間分割戦略に影響されることが多い。
さらに、伝統的な時間プールは通常、歩行において特有の時間情報を無視する。
上記の課題に対処するため,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案し,適応型空間表現を効果的に抽出し,マルチスケールの時間情報を自然に集約する。
アダプティブ構造化表現抽出モジュール(ASRE)は、適応エッジマスクを用いてシルエットのエッジを分離し、セマンティック潜在空間における表現を最大化する。
さらに、msta(multi-scale temporal aggregation module)は、時間集約構造による長短時間情報の効果的なモデリングを実現する。
さらに, 長期閉塞のサンプル空間を豊かにし, モデルの一般化を促進するために, ランダムマスクと呼ばれる新しいデータ拡張法を提案する。
2つのデータセットで実施された大規模な実験は、特に複雑なシーン(BGとCL)において提案手法の競争上の優位性を示す。
CASIA-Bデータセットでは、GaitASMSは平均93.5\%の精度を達成し、BGとCLでそれぞれランク1の精度を3.4\%と6.3\%で上回る。
アブレーション実験はASREとMSTAの有効性を示した。
ソースコードはhttps://github.com/YanSungithub/GaitASMSで入手できる。
関連論文リスト
- SSPNet: Scale and Spatial Priors Guided Generalizable and Interpretable
Pedestrian Attribute Recognition [23.55622798950833]
Pedestrian Attribute Recognition(PAR)モデルに対して,SSPNet(Scale and Spatial Priors Guided Network)を提案する。
SSPNetは、異なる属性グループに対して適切なスケールの事前情報を提供することを学び、モデルが異なるレベルの機能マップに集中できるようにする。
Weakly-supervised Pedestrian Attribute Localization (WPAL) に対して, 属性応答マスクのGrad-CAMの改良に基づく新しいIoU属性ローカライゼーション指標を提案する。
論文 参考訳(メタデータ) (2023-12-11T00:41:40Z) - GaitFormer: Revisiting Intrinsic Periodicity for Gait Recognition [6.517046095186713]
歩行認識は、外見情報に頼るのではなく、ビデオレベルの人間のシルエットを分析することで、異なる歩行パターンを区別することを目的としている。
これまでの研究は主に局所的あるいはグローバルな時間的表現の抽出に重点を置いてきた。
本稿では,周期的特性と歩行パターンの微細な時間依存性を生かした,TPA (Temporal Periodic Alignment) と呼ばれるプラグイン・アンド・プレイ戦略を提案する。
論文 参考訳(メタデータ) (2023-07-25T05:05:07Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Multi-scale Context-aware Network with Transformer for Gait Recognition [35.521073630044434]
歩行認識のための変圧器(MCAT)を用いたマルチスケールコンテキスト認識ネットワークを提案する。
MCATは3つの尺度にまたがって時間的特徴を生成し、局所的・グローバル的な視点からコンテキスト情報を用いて適応的に集約する。
時間的操作による空間的特徴の破損を修復するために、MCATは、有能な空間的特徴学習(SSFL)モジュールを組み込んでいる。
論文 参考訳(メタデータ) (2022-04-07T07:47:21Z) - Spatio-temporal Gait Feature with Adaptive Distance Alignment [90.5842782685509]
我々は,ネットワーク構造の最適化と抽出した歩行特徴の洗練という2つの側面から,異なる被験者の歩行特徴の差を増大させようとしている。
提案手法は時空間特徴抽出(SFE)と適応距離アライメント(ADA)から構成される。
ADAは実生活における多数の未ラベルの歩行データをベンチマークとして使用し、抽出した時間的特徴を洗練し、クラス間類似度が低く、クラス内類似度が高いようにしている。
論文 参考訳(メタデータ) (2022-03-07T13:34:00Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - An Enhanced Adversarial Network with Combined Latent Features for
Spatio-Temporal Facial Affect Estimation in the Wild [1.3007851628964147]
本稿では,遅延特徴に基づく時間的モデリングにより,空間的特徴と時間的特徴の両方を効率的に抽出する新しいモデルを提案する。
提案モデルは3つの主要ネットワークから成り,造語生成器,判別器,コンビネータを用いて,適応型アテンションモジュールを実現するために,敵対的な学習環境において訓練を行う。
論文 参考訳(メタデータ) (2021-02-18T04:10:12Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。