論文の概要: GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation
and Multi-Scale Temporal Aggregation
- arxiv url: http://arxiv.org/abs/2307.15981v2
- Date: Wed, 21 Feb 2024 10:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:55:09.363789
- Title: GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation
and Multi-Scale Temporal Aggregation
- Title(参考訳): GaitASMS:適応型空間表現とマルチスケール時間集約による歩行認識
- Authors: Yan Sun, Hu Long, Xueling Feng, and Mark Nixon
- Abstract要約: 歩行認識は、最も有望なビデオベースの生体認証技術の一つである。
本稿では,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案する。
適応的な空間表現を効果的に抽出し、多スケールの時間情報を自然に集約することができる。
- 参考スコア(独自算出の注目度): 2.0444600042188448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is one of the most promising video-based biometric
technologies. The edge of silhouettes and motion are the most informative
feature and previous studies have explored them separately and achieved notable
results. However, due to occlusions and variations in viewing angles, their
gait recognition performance is often affected by the predefined spatial
segmentation strategy. Moreover, traditional temporal pooling usually neglects
distinctive temporal information in gait. To address the aforementioned issues,
we propose a novel gait recognition framework, denoted as GaitASMS, which can
effectively extract the adaptive structured spatial representations and
naturally aggregate the multi-scale temporal information. The Adaptive
Structured Representation Extraction Module (ASRE) separates the edge of
silhouettes by using the adaptive edge mask and maximizes the representation in
semantic latent space. Moreover, the Multi-Scale Temporal Aggregation Module
(MSTA) achieves effective modeling of long-short-range temporal information by
temporally aggregated structure. Furthermore, we propose a new data
augmentation, denoted random mask, to enrich the sample space of long-term
occlusion and enhance the generalization of the model. Extensive experiments
conducted on two datasets demonstrate the competitive advantage of proposed
method, especially in complex scenes, i.e. BG and CL. On the CASIA-B dataset,
GaitASMS achieves the average accuracy of 93.5\% and outperforms the baseline
on rank-1 accuracies by 3.4\% and 6.3\%, respectively, in BG and CL. The
ablation experiments demonstrate the effectiveness of ASRE and MSTA. The source
code is available at https://github.com/YanSungithub/GaitASMS.
- Abstract(参考訳): 歩行認識は、最も有望なビデオベースのバイオメトリック技術の一つである。
シルエットと動きの端は最も有意義な特徴であり、以前の研究ではこれらを別々に探索し、顕著な結果を得た。
しかし、咬合や視角の変化により、その歩行認識性能は予め定義された空間分割戦略に影響されることが多い。
さらに、伝統的な時間プールは通常、歩行において特有の時間情報を無視する。
上記の課題に対処するため,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案し,適応型空間表現を効果的に抽出し,マルチスケールの時間情報を自然に集約する。
アダプティブ構造化表現抽出モジュール(ASRE)は、適応エッジマスクを用いてシルエットのエッジを分離し、セマンティック潜在空間における表現を最大化する。
さらに、msta(multi-scale temporal aggregation module)は、時間集約構造による長短時間情報の効果的なモデリングを実現する。
さらに, 長期閉塞のサンプル空間を豊かにし, モデルの一般化を促進するために, ランダムマスクと呼ばれる新しいデータ拡張法を提案する。
2つのデータセットで実施された大規模な実験は、特に複雑なシーン(BGとCL)において提案手法の競争上の優位性を示す。
CASIA-Bデータセットでは、GaitASMSは平均93.5\%の精度を達成し、BGとCLでそれぞれランク1の精度を3.4\%と6.3\%で上回る。
アブレーション実験はASREとMSTAの有効性を示した。
ソースコードはhttps://github.com/YanSungithub/GaitASMSで入手できる。
関連論文リスト
- Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition [4.036669828958854]
本研究では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。
空間グラフでは、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持する。
本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
論文 参考訳(メタデータ) (2024-09-26T15:28:25Z) - Paving the way toward foundation models for irregular and unaligned Satellite Image Time Series [0.0]
衛星画像の空間的, スペクトル的, 時間的次元を考慮したALISEを提案する。
SITSで現在利用可能なSSLモデルとは異なり、ALISEはSITSを共通の学習された時間的プロジェクション空間に投影するための柔軟なクエリメカニズムを組み込んでいる。
PASTIS, 土地被覆区分 (MultiSenGE) , 新たな作物変化検出データセットの3つの下流課題を通じて, 生産された表現の質を評価する。
論文 参考訳(メタデータ) (2024-07-11T12:42:10Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - GaitFormer: Revisiting Intrinsic Periodicity for Gait Recognition [6.517046095186713]
歩行認識は、外見情報に頼るのではなく、ビデオレベルの人間のシルエットを分析することで、異なる歩行パターンを区別することを目的としている。
これまでの研究は主に局所的あるいはグローバルな時間的表現の抽出に重点を置いてきた。
本稿では,周期的特性と歩行パターンの微細な時間依存性を生かした,TPA (Temporal Periodic Alignment) と呼ばれるプラグイン・アンド・プレイ戦略を提案する。
論文 参考訳(メタデータ) (2023-07-25T05:05:07Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - An Enhanced Adversarial Network with Combined Latent Features for
Spatio-Temporal Facial Affect Estimation in the Wild [1.3007851628964147]
本稿では,遅延特徴に基づく時間的モデリングにより,空間的特徴と時間的特徴の両方を効率的に抽出する新しいモデルを提案する。
提案モデルは3つの主要ネットワークから成り,造語生成器,判別器,コンビネータを用いて,適応型アテンションモジュールを実現するために,敵対的な学習環境において訓練を行う。
論文 参考訳(メタデータ) (2021-02-18T04:10:12Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。