論文の概要: Gait Recognition in the Wild with Multi-hop Temporal Switch
- arxiv url: http://arxiv.org/abs/2209.00355v1
- Date: Thu, 1 Sep 2022 10:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:56:19.795044
- Title: Gait Recognition in the Wild with Multi-hop Temporal Switch
- Title(参考訳): マルチホップ時空間スイッチを用いた野生の歩行認識
- Authors: Jinkai Zheng, Xinchen Liu, Xiaoyan Gu, Yaoqi Sun, Chuang Gan, Jiyong
Zhang, Wu Liu, Chenggang Yan
- Abstract要約: 野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
- 参考スコア(独自算出の注目度): 81.35245014397759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies for gait recognition are dominated by in-the-lab scenarios.
Since people live in real-world senses, gait recognition in the wild is a more
practical problem that has recently attracted the attention of the community of
multimedia and computer vision. Current methods that obtain state-of-the-art
performance on in-the-lab benchmarks achieve much worse accuracy on the
recently proposed in-the-wild datasets because these methods can hardly model
the varied temporal dynamics of gait sequences in unconstrained scenes.
Therefore, this paper presents a novel multi-hop temporal switch method to
achieve effective temporal modeling of gait patterns in real-world scenes.
Concretely, we design a novel gait recognition network, named Multi-hop
Temporal Switch Network (MTSGait), to learn spatial features and multi-scale
temporal features simultaneously. Different from existing methods that use 3D
convolutions for temporal modeling, our MTSGait models the temporal dynamics of
gait sequences by 2D convolutions. By this means, it achieves high efficiency
with fewer model parameters and reduces the difficulty in optimization compared
with 3D convolution-based models. Based on the specific design of the 2D
convolution kernels, our method can eliminate the misalignment of features
among adjacent frames. In addition, a new sampling strategy, i.e., non-cyclic
continuous sampling, is proposed to make the model learn more robust temporal
features. Finally, the proposed method achieves superior performance on two
public gait in-the-wild datasets, i.e., GREW and Gait3D, compared with
state-of-the-art methods.
- Abstract(参考訳): 既存の歩行認識の研究は、バンド内シナリオに支配されている。
人々は現実世界の感覚に生きているので、野生での歩行認識はより実用的な問題であり、最近マルチメディアとコンピュータビジョンのコミュニティの注目を集めている。
これらの手法は、制約のないシーンにおける歩数列の時間的変動をモデル化し難いため、最近提案された組込みデータセットにおいて、組込みベンチマークの最先端性能を得るための現在の手法は、はるかに精度が良い。
そこで本稿では,実世界における歩行パターンの効果的な時間モデリングを実現するためのマルチホップ時間切替手法を提案する。
具体的には,マルチホップテンポラルスイッチネットワーク(MTSGait)と呼ばれる新しい歩行認識ネットワークを設計し,空間的特徴とマルチスケール時間的特徴を同時に学習する。
時間的モデリングに3次元畳み込みを用いた既存の方法とは異なり、MTSGaitは2次元畳み込みによる歩行系列の時間的ダイナミクスをモデル化する。
つまり、3D畳み込みモデルと比較して、モデルのパラメータを少なくして高効率を実現し、最適化の難しさを低減する。
2次元畳み込みカーネルの具体的設計に基づき,提案手法は隣接フレーム間の特徴の不一致を解消することができる。
さらに、モデルがより堅牢な時間的特徴を学ぶために、新しいサンプリング戦略、すなわち非循環連続サンプリングが提案されている。
最後に,提案手法は,GREWとGait3Dの2つの公開歩行データに対して,最先端の手法と比較して優れた性能を実現する。
関連論文リスト
- Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。