論文の概要: Gait Recognition in the Wild with Multi-hop Temporal Switch
- arxiv url: http://arxiv.org/abs/2209.00355v1
- Date: Thu, 1 Sep 2022 10:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:56:19.795044
- Title: Gait Recognition in the Wild with Multi-hop Temporal Switch
- Title(参考訳): マルチホップ時空間スイッチを用いた野生の歩行認識
- Authors: Jinkai Zheng, Xinchen Liu, Xiaoyan Gu, Yaoqi Sun, Chuang Gan, Jiyong
Zhang, Wu Liu, Chenggang Yan
- Abstract要約: 野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
- 参考スコア(独自算出の注目度): 81.35245014397759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies for gait recognition are dominated by in-the-lab scenarios.
Since people live in real-world senses, gait recognition in the wild is a more
practical problem that has recently attracted the attention of the community of
multimedia and computer vision. Current methods that obtain state-of-the-art
performance on in-the-lab benchmarks achieve much worse accuracy on the
recently proposed in-the-wild datasets because these methods can hardly model
the varied temporal dynamics of gait sequences in unconstrained scenes.
Therefore, this paper presents a novel multi-hop temporal switch method to
achieve effective temporal modeling of gait patterns in real-world scenes.
Concretely, we design a novel gait recognition network, named Multi-hop
Temporal Switch Network (MTSGait), to learn spatial features and multi-scale
temporal features simultaneously. Different from existing methods that use 3D
convolutions for temporal modeling, our MTSGait models the temporal dynamics of
gait sequences by 2D convolutions. By this means, it achieves high efficiency
with fewer model parameters and reduces the difficulty in optimization compared
with 3D convolution-based models. Based on the specific design of the 2D
convolution kernels, our method can eliminate the misalignment of features
among adjacent frames. In addition, a new sampling strategy, i.e., non-cyclic
continuous sampling, is proposed to make the model learn more robust temporal
features. Finally, the proposed method achieves superior performance on two
public gait in-the-wild datasets, i.e., GREW and Gait3D, compared with
state-of-the-art methods.
- Abstract(参考訳): 既存の歩行認識の研究は、バンド内シナリオに支配されている。
人々は現実世界の感覚に生きているので、野生での歩行認識はより実用的な問題であり、最近マルチメディアとコンピュータビジョンのコミュニティの注目を集めている。
これらの手法は、制約のないシーンにおける歩数列の時間的変動をモデル化し難いため、最近提案された組込みデータセットにおいて、組込みベンチマークの最先端性能を得るための現在の手法は、はるかに精度が良い。
そこで本稿では,実世界における歩行パターンの効果的な時間モデリングを実現するためのマルチホップ時間切替手法を提案する。
具体的には,マルチホップテンポラルスイッチネットワーク(MTSGait)と呼ばれる新しい歩行認識ネットワークを設計し,空間的特徴とマルチスケール時間的特徴を同時に学習する。
時間的モデリングに3次元畳み込みを用いた既存の方法とは異なり、MTSGaitは2次元畳み込みによる歩行系列の時間的ダイナミクスをモデル化する。
つまり、3D畳み込みモデルと比較して、モデルのパラメータを少なくして高効率を実現し、最適化の難しさを低減する。
2次元畳み込みカーネルの具体的設計に基づき,提案手法は隣接フレーム間の特徴の不一致を解消することができる。
さらに、モデルがより堅牢な時間的特徴を学ぶために、新しいサンプリング戦略、すなわち非循環連続サンプリングが提案されている。
最後に,提案手法は,GREWとGait3Dの2つの公開歩行データに対して,最先端の手法と比較して優れた性能を実現する。
関連論文リスト
- 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Dynamical Deep Generative Latent Modeling of 3D Skeletal Motion [15.359134407309726]
本モデルでは,高度に相関した骨格データを時間的変化の空間的基礎の集合に分解する。
これにより、3次元ポーズデータのダイナミックスにおいて意味のある内在状態を解析する動的深部生成潜在モデルが得られる。
論文 参考訳(メタデータ) (2021-06-18T23:58:49Z) - Sequential convolutional network for behavioral pattern extraction in
gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。
SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。
SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文 参考訳(メタデータ) (2021-04-23T08:44:10Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。