論文の概要: Towards Complete-View and High-Level Pose-based Gait Recognition
- arxiv url: http://arxiv.org/abs/2209.11577v1
- Date: Fri, 23 Sep 2022 13:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 16:50:17.063041
- Title: Towards Complete-View and High-Level Pose-based Gait Recognition
- Title(参考訳): 完全ビューと高レベルポーズに基づく歩行認識に向けて
- Authors: Honghu Pan, Yongyong Chen, Tingyang Xu, Yunqi He, Zhenyu He
- Abstract要約: 本稿では,フルランク変換行列を学習し,各シングルビューポーズサンプルに対して多視点ポーズシーケンスを生成することを提案する。
提案手法は,ベースラインモデルと既存のポーズベース手法を大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 19.69177679378616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The model-based gait recognition methods usually adopt the pedestrian walking
postures to identify human beings.
However, existing methods did not explicitly resolve the large intra-class
variance of human pose due to camera views changing.
In this paper, we propose to generate multi-view pose sequences for each
single-view pose sample by learning full-rank transformation matrices via
lower-upper generative adversarial network (LUGAN).
By the prior of camera imaging, we derive that the spatial coordinates
between cross-view poses satisfy a linear transformation of a full-rank matrix,
thereby, this paper employs the adversarial training to learn transformation
matrices from the source pose and target views to obtain the target pose
sequences.
To this end, we implement a generator composed of graph convolutional (GCN)
layers, fully connected (FC) layers and two-branch convolutional (CNN) layers:
GCN layers and FC layers encode the source pose sequence and target view, then
CNN branches learn a lower triangular matrix and an upper triangular matrix,
respectively, finally they are multiplied to formulate the full-rank
transformation matrix.
For the purpose of adversarial training, we further devise a condition
discriminator that distinguishes whether the pose sequence is true or
generated.
To enable the high-level correlation learning, we propose a plug-and-play
module, named multi-scale hypergraph convolution (HGC), to replace the spatial
graph convolutional layer in baseline, which could simultaneously model the
joint-level, part-level and body-level correlations.
Extensive experiments on two large gait recognition datasets, i.e., CASIA-B
and OUMVLP-Pose, demonstrate that our method outperforms the baseline model and
existing pose-based methods by a large margin.
- Abstract(参考訳): モデルに基づく歩行認識法は通常、歩行姿勢を用いて人間を識別する。
しかし、カメラビューの変化により、人間のポーズのクラス内大きなばらつきが明確に解決されることはなかった。
本稿では,Low-upper Generative Adversarial Network (LUGAN) を用いて,フルランク変換行列を学習し,各シングルビューポーズサンプルに対するマルチビューポーズシーケンスを生成する。
カメライメージングの先駆けとして,クロスビューポーズ間の空間座標がフルランク行列の線形変換を満足していることから,本論文では,ソースポーズとターゲットビューから変換行列を学習し,対象ポーズシーケンスを得る。
この目的のために、グラフ畳み込み(gcn)層、完全連結(fc)層、二分岐畳み込み(cnn)層からなるジェネレータを実装する。gcn層とfc層はソースポーズシーケンスとターゲットビューをエンコードし、cnn分岐は下三角行列と上三角行列をそれぞれ学習し、最終的にこれらを乗算してフルランク変換行列を定式化する。
対人訓練の目的のために、ポーズシーケンスが真か生成されたかを識別する条件判別器をさらに考案する。
高レベルの相関学習を実現するために,HGC (Multi-scale hypergraph convolution) と呼ばれるプラグアンドプレイモジュールを提案する。
CASIA-BとOUMVLP-Poseの2つの大きな歩行認識データセットに対する大規模な実験により,本手法がベースラインモデルと既存のポーズベース手法を大きなマージンで上回ることを示した。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - 3D Human Pose Lifting with Grid Convolution [20.60797374692489]
本稿では,画像空間における正規畳み込み操作の知恵を模倣したグリッド畳み込み(GridConv)を提案する。
我々の完全畳み込みグリッドリフトネットワークは、最先端の手法よりも顕著なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-02-17T08:52:16Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。