論文の概要: Local Spatiotemporal Convolutional Network for Robust Gait Recognition
- arxiv url: http://arxiv.org/abs/2605.14548v1
- Date: Thu, 14 May 2026 08:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.71495
- Title: Local Spatiotemporal Convolutional Network for Robust Gait Recognition
- Title(参考訳): ロバスト歩行認識のための局所時空間畳み込みネットワーク
- Authors: Xiaoyun Wang, Cunrong Li, Wu Wang,
- Abstract要約: 歩行認識は、個人を独自の歩行パターンで識別する有望な生体計測技術である。
既存のアプローチは、個々のシルエットフレームから抽出された静的な外観特徴、複雑なシーケンシャルモデルのいずれかに依存している。
本稿では,従来の2次元畳み込みネットワークに時間的情報を抽出する能力を持たせた,構造的にシンプルで高効率なデュアルブランチアーキテクチャLSTCNを提案する。
- 参考スコア(独自算出の注目度): 7.0676119183443395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gait recognition, as a promising biometric technology, identifies individuals through their unique walking patterns and offers distinctive advantages including non-invasiveness, long-range applicability, and resistance to deliberate disguise. Despite these merits, capturing the intrinsic motion patterns concealed within consecutive video frames remains challenging due to the complexity of video data and the interference of external covariates such as viewpoint changes, clothing variations, and carrying conditions. Existing approaches predominantly rely on either static appearance features extracted from individual silhouette frames or employ complex sequential models (\eg, LSTM, 3D convolutions) that demand substantial computational resources and sophisticated training strategies. To address these limitations, we propose a Local Spatiotemporal Convolutional Network (LSTCN), a structurally simple yet highly effective dual-branch architecture that endows standard two-dimensional convolutional networks with the capacity to extract temporal information. Specifically, we introduce a Global Bidirectional Spatial Pooling (GBSP) mechanism that reduces the dimensionality of gait tensors by decomposing spatial features into horizontal and vertical strip-based local representations, enabling the temporal dimension to participate in standard 2D convolution operations. Building upon this, we design a Local Spatiotemporal Convolutional (LSTC) layer that jointly processes temporal and spatial dimensions, allowing the network to adaptively learn strip-based gait motion patterns. We further extend this formulation with asymmetric convolution kernels that independently attend to the temporal, spatial, and joint spatiotemporal domains, thereby enriching the extracted feature representations.
- Abstract(参考訳): 歩行認識は、有望な生体計測技術として、独自の歩行パターンを通じて個人を識別し、非侵襲性、長距離適用性、故意の偽装に対する抵抗など、独特な利点を提供する。
これらの利点にもかかわらず、連続するビデオフレーム内に隠された本質的な動きパターンのキャプチャは、映像データの複雑さや視点の変化、衣服のバリエーション、搬送条件などの外部共変体の干渉により、依然として困難である。
既存のアプローチは、個々のシルエットフレームから抽出された静的な外観特徴や、かなりの計算資源と高度な訓練戦略を必要とする複雑なシーケンシャルモデル(\eg, LSTM, 3D畳み込み)に大きく依存している。
これらの制約に対処するため,従来の2次元畳み込みネットワークに時間的情報を抽出する能力を持たせた,構造的にシンプルで高効率な二重ブランチアーキテクチャLSTCNを提案する。
具体的には,空間的特徴を水平および垂直のストリップベース局所表現に分解することで,歩行テンソルの次元性を低減し,時間的次元を標準的な2次元畳み込み操作に参加できるようにする,グローバル双方向空間プーリング(GBSP)機構を導入する。
これに基づいて,時間空間次元と空間次元を協調的に処理し,ストリップに基づく歩行パターンを適応的に学習するローカル時空間畳み込み(LSTC)層を設計する。
さらに、この定式化を、時間的・空間的・共同時空間的領域に独立して関与する非対称畳み込みカーネルで拡張し、抽出した特徴表現を豊かにする。
関連論文リスト
- Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - Deformable Dynamic Convolution for Accurate yet Efficient Spatio-Temporal Traffic Prediction [1.7268829007643391]
変形可能な動的畳み込みネットワーク(Deformable Dynamic Convolutional Network, DDCN)は、変形可能な動的操作と受容的な動的操作の両方を統合する新しいCNNベースのアーキテクチャである。
DDCNは計算コストを大幅に削減しつつ、競争力のある予測性能を実現し、大規模かつリアルタイムなデプロイメントの可能性を強調している。
論文 参考訳(メタデータ) (2025-07-13T06:49:35Z) - Spline Deformation Field [21.755382164519776]
帰納バイアスは、不適切なシナリオにおける標準空間コヒーレンスを妨げる。
本稿では,従来の結合技術に取って代わる,新しい低ランク空間符号化手法を提案する。
最先端の手法と比較して、競争力のある動的再構成品質を実現する。
論文 参考訳(メタデータ) (2025-07-10T08:11:46Z) - Linear Attention is Enough in Spatial-Temporal Forecasting [0.0]
本稿では,道路ネットワークにおけるノードを独立した時空間トークンとして扱うことを提案する。
次に、それらをバニラ変換器に入力して、複雑な時空間パターンを学習します。
我々のコードは、手頃な計算コストで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-08-17T10:06:50Z) - Surgformer: Surgical Transformer with Hierarchical Temporal Attention for Surgical Phase Recognition [7.682613953680041]
本稿では,空間時間モデルと冗長性の問題に終末的に対処する手術用トランスフォーマー(サージフォーマー)を提案する。
提案するサージフォーマーは,最先端の手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2024-08-07T16:16:31Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。