論文の概要: What and Where: Modeling Skeletons from Semantic and Spatial
Perspectives for Action Recognition
- arxiv url: http://arxiv.org/abs/2004.03259v2
- Date: Mon, 22 Mar 2021 12:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:14:41.411309
- Title: What and Where: Modeling Skeletons from Semantic and Spatial
Perspectives for Action Recognition
- Title(参考訳): 行動認識のための意味的・空間的視点からの骨格のモデル化
- Authors: Lei Shi, Yifan Zhang, Jian Cheng and Hanqing Lu
- Abstract要約: 本研究では,新しい空間的視点から骨格をモデル化することを提案する。
意味論的観点から,共同関係のモデル化に熟練したトランスフォーマー型ネットワークを提案する。
空間的観点から,スケルトンデータをスパース形式に変換し,効率的な特徴抽出を行う。
- 参考スコア(独自算出の注目度): 46.836815779215456
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Skeleton data, which consists of only the 2D/3D coordinates of the human
joints, has been widely studied for human action recognition. Existing methods
take the semantics as prior knowledge to group human joints and draw
correlations according to their spatial locations, which we call the semantic
perspective for skeleton modeling. In this paper, in contrast to previous
approaches, we propose to model skeletons from a novel spatial perspective,
from which the model takes the spatial location as prior knowledge to group
human joints and mines the discriminative patterns of local areas in a
hierarchical manner. The two perspectives are orthogonal and complementary to
each other; and by fusing them in a unified framework, our method achieves a
more comprehensive understanding of the skeleton data. Besides, we customized
two networks for the two perspectives. From the semantic perspective, we
propose a Transformer-like network that is expert in modeling joint
correlations, and present three effective techniques to adapt it for skeleton
data. From the spatial perspective, we transform the skeleton data into the
sparse format for efficient feature extraction and present two types of sparse
convolutional networks for sparse skeleton modeling. Extensive experiments are
conducted on three challenging datasets for skeleton-based human action/gesture
recognition, namely, NTU-60, NTU-120 and SHREC, where our method achieves
state-of-the-art performance.
- Abstract(参考訳): ヒト関節の2D/3D座標のみからなる骨格データは、ヒトの行動認識のために広く研究されている。
既存の手法では,人間の関節をグループ化するための事前知識としてセマンティクスを取り,空間的位置に応じた相関関係を描画する。
本稿では,従来のアプローチとは対照的に,新しい空間的視点から骨格をモデル化する手法を提案する。
両視点は直交的かつ相補的であり,それらを統一的な枠組みで融合することにより,骨格データのより包括的な理解を実現する。
さらに、2つの視点で2つのネットワークをカスタマイズしました。
意味論的観点から,共同関係のモデル化に熟練したトランスフォーマー型ネットワークを提案し,骨格データに適用するための3つの効果的な手法を提案する。
空間的観点から,スケルトンデータをスパース形式に変換し,効率的な特徴抽出を行い,スパース骨格モデリングのための2種類のスパース畳み込みネットワークを提案する。
NTU-60, NTU-120, SHRECという骨格に基づくヒトの行動・姿勢認識のための3つの挑戦的データセットを用いて, 実験を行った。
関連論文リスト
- GaitMA: Pose-guided Multi-modal Feature Fusion for Gait Recognition [26.721242606715354]
歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
我々は、Gait Multi-model Aggregation Network (GaitMA)と呼ばれる新しい歩行認識フレームワークを提案する。
まず, 2つのCNN特徴抽出器を用いて, シルエットと骨格の特徴を抽出した。
論文 参考訳(メタデータ) (2024-07-20T09:05:17Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Iterative Graph Filtering Network for 3D Human Pose Estimation [5.177947445379688]
グラフ畳み込みネットワーク(GCN)は3次元人間のポーズ推定に有効な手法であることが証明されている。
本稿では,3次元ポーズ推定のための反復グラフフィルタリングフレームワークを提案する。
我々のアプローチは、ラプラシア正規化によるグラフフィルタリングを反復的に解くという考え方に基づいている。
論文 参考訳(メタデータ) (2023-07-29T20:46:44Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeleton-Contrastive 3D Action Representation Learning [35.06361753065124]
本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,PKUデータセットとNTUデータセットのスケルトンデータからの自己教師付き学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-08T14:44:59Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action
Recognition [46.836815779215456]
本稿では,骨格に基づく行動認識のための空間的注意ネットワーク(DSTA-Net)を提案する。
注意ブロックの構築には,空間的時間的注意分離,非結合位置符号化,空間的大域正規化という3つの手法が提案されている。
提案手法の有効性を検証するため,骨格に基づくジェスチャーと行動認識のための4つの挑戦的データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T07:58:56Z) - Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。
ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。
提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文 参考訳(メタデータ) (2019-12-31T15:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。