論文の概要: Multi-scale Context-aware Network with Transformer for Gait Recognition
- arxiv url: http://arxiv.org/abs/2204.03270v3
- Date: Mon, 25 Sep 2023 18:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 18:35:46.481795
- Title: Multi-scale Context-aware Network with Transformer for Gait Recognition
- Title(参考訳): 歩行認識のためのトランスフォーマを用いたマルチスケールコンテキストアウェアネットワーク
- Authors: Duowang Zhu, Xiaohu Huang, Xinggang Wang, Bo Yang, Botao He, Wenyu
Liu, and Bin Feng
- Abstract要約: 歩行認識のための変圧器(MCAT)を用いたマルチスケールコンテキスト認識ネットワークを提案する。
MCATは3つの尺度にまたがって時間的特徴を生成し、局所的・グローバル的な視点からコンテキスト情報を用いて適応的に集約する。
時間的操作による空間的特徴の破損を修復するために、MCATは、有能な空間的特徴学習(SSFL)モジュールを組み込んでいる。
- 参考スコア(独自算出の注目度): 35.521073630044434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although gait recognition has drawn increasing research attention recently,
since the silhouette differences are quite subtle in spatial domain, temporal
feature representation is crucial for gait recognition. Inspired by the
observation that humans can distinguish gaits of different subjects by
adaptively focusing on clips of varying time scales, we propose a multi-scale
context-aware network with transformer (MCAT) for gait recognition. MCAT
generates temporal features across three scales, and adaptively aggregates them
using contextual information from both local and global perspectives.
Specifically, MCAT contains an adaptive temporal aggregation (ATA) module that
performs local relation modeling followed by global relation modeling to fuse
the multi-scale features. Besides, in order to remedy the spatial feature
corruption resulting from temporal operations, MCAT incorporates a salient
spatial feature learning (SSFL) module to select groups of discriminative
spatial features. Extensive experiments conducted on three datasets demonstrate
the state-of-the-art performance. Concretely, we achieve rank-1 accuracies of
98.7%, 96.2% and 88.7% under normal walking, bag-carrying and coat-wearing
conditions on CASIA-B, 97.5% on OU-MVLP and 50.6% on GREW. The source code will
be available at https://github.com/zhuduowang/MCAT.git.
- Abstract(参考訳): 歩行認識は近年,空間領域ではシルエット差が非常に微妙であるため,歩行認識には時間的特徴表現が不可欠である。
様々な時間スケールのクリップに適応的に焦点を合わせることで、人間が異なる被験者の歩行を区別できるという観察に刺激されて、歩行認識のためのトランスフォーマー(MCAT)を備えたマルチスケールコンテキスト認識ネットワークを提案する。
MCATは3つの尺度にまたがって時間的特徴を生成し、局所的・グローバル的な視点からコンテキスト情報を用いて適応的に集約する。
具体的には、MCATは、局所関係モデリングを行い、その後グローバル関係モデリングを行い、マルチスケールの特徴を融合する適応時間アグリゲーション(ATA)モジュールを含む。
また、時間的操作による空間的特徴の腐敗を改善するため、mcatはssfl(salient spatial feature learning)モジュールを組み込んで、識別的空間的特徴の群を選択する。
3つのデータセットで広範な実験が行われ、最先端のパフォーマンスが実証された。
具体的には,CASIA-Bの歩行,バッグ搬送,着衣条件が98.7%,96.2%,88.7%,OU-MVLPが97.5%,GREWが50.6%であった。
ソースコードはhttps://github.com/zhuduowang/MCAT.gitで入手できる。
関連論文リスト
- A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文 参考訳(メタデータ) (2023-12-22T03:25:15Z) - Learning multi-domain feature relation for visible and Long-wave
Infrared image patch matching [39.88037892637296]
我々は、VL-CMIMと呼ばれる最大の可視・長波長赤外線画像パッチマッチングデータセットを提示する。
さらに,マルチドメイン特徴関連学習ネットワーク(MD-FRN)を提案する。
論文 参考訳(メタデータ) (2023-08-09T11:23:32Z) - GaitASMS: Gait Recognition by Adaptive Structured Spatial Representation
and Multi-Scale Temporal Aggregation [2.0444600042188448]
歩行認識は、最も有望なビデオベースの生体認証技術の一つである。
本稿では,GaitASMSと呼ばれる新しい歩行認識フレームワークを提案する。
適応的な空間表現を効果的に抽出し、多スケールの時間情報を自然に集約することができる。
論文 参考訳(メタデータ) (2023-07-29T13:03:17Z) - MetaGait: Learning to Learn an Omni Sample Adaptive Representation for
Gait Recognition [16.26377062742576]
そこで我々は,Omniサンプル適応表現を学習するMetaGaitを開発した。
プロセス全体にわたってメタ知識を活用し、メタトリプルアテンションとメタテンポラルプールを提示します。
大規模な実験によって提案されたMetaGaitの最先端性能が実証された。
論文 参考訳(メタデータ) (2023-06-06T06:53:05Z) - GaitGS: Temporal Feature Learning in Granularity and Span Dimension for Gait Recognition [34.07501669897291]
GaitGSは、時間的特徴を粒度とスパン次元の両方で同時に集約するフレームワークである。
本手法は,2つのデータセットに対して98.2%,96.5%,89.7%のランク1精度を達成し,最先端の性能を示す。
論文 参考訳(メタデータ) (2023-05-31T09:48:25Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Adaptive Affinity for Associations in Multi-Target Multi-Camera Tracking [53.668757725179056]
本稿では,MTMCTにおけるアフィニティ推定を対応する対応範囲に適応させるための,単純かつ効果的な手法を提案する。
すべての外見の変化に対処する代わりに、データアソシエーション中に出現する可能性のあるものに特化したアフィニティメトリックを調整します。
ミスマッチを最小限に抑えるため、アダプティブアフィニティモジュールはグローバルなre-ID距離を大幅に改善する。
論文 参考訳(メタデータ) (2021-12-14T18:59:11Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。