論文の概要: View-Invariant Skeleton-based Action Recognition via Global-Local
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2209.11634v1
- Date: Fri, 23 Sep 2022 15:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 16:48:49.585132
- Title: View-Invariant Skeleton-based Action Recognition via Global-Local
Contrastive Learning
- Title(参考訳): グローバルローカルコントラスト学習によるビュー不変スケルトンに基づく行動認識
- Authors: Cunling Bian, Wei Feng, Fanbo Meng, Song Wang
- Abstract要約: 骨格に基づく人間の行動認識のための手動動作ラベル付けを使わずに、新しいビュー不変表現学習手法を提案する。
我々は、異なる視点から抽出された表現間の相互情報を最大化することにより、ネットワークトレーニングにおいて同一人物に対して同時に取られたマルチビュースケルトンデータを活用する。
提案手法は,入力スケルトンデータのビュー差に頑健であり,教師なしスケルトンに基づく人体行動法の性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 15.271862140292837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based human action recognition has been drawing more interest
recently due to its low sensitivity to appearance changes and the accessibility
of more skeleton data. However, even the 3D skeletons captured in practice are
still sensitive to the viewpoint and direction gave the occlusion of different
human-body joints and the errors in human joint localization. Such view
variance of skeleton data may significantly affect the performance of action
recognition. To address this issue, we propose in this paper a new
view-invariant representation learning approach, without any manual action
labeling, for skeleton-based human action recognition. Specifically, we
leverage the multi-view skeleton data simultaneously taken for the same person
in the network training, by maximizing the mutual information between the
representations extracted from different views, and then propose a global-local
contrastive loss to model the multi-scale co-occurrence relationships in both
spatial and temporal domains. Extensive experimental results show that the
proposed method is robust to the view difference of the input skeleton data and
significantly boosts the performance of unsupervised skeleton-based human
action methods, resulting in new state-of-the-art accuracies on two challenging
multi-view benchmarks of PKUMMD and NTU RGB+D.
- Abstract(参考訳): 骨格に基づく人間の行動認識は、外観の変化に対する感度の低さと、より多くの骨格データのアクセシビリティにより、最近より関心を集めている。
しかし、実際に捕獲された3D骨格でさえ、視点や方向に敏感であり、異なる人体関節の閉塞と人間の関節の局所化の誤りをもたらした。
このようなスケルトンデータのばらつきは、行動認識の性能に大きな影響を及ぼす可能性がある。
本稿では,手作業による動作ラベリングを必要とせず,スケルトンに基づく人間行動認識のための新しい視点不変表現学習手法を提案する。
具体的には、異なる視点から抽出した表現間の相互情報を最大化し、ネットワークトレーニングにおいて同一人物に対して同時に取得した多視点スケルトンデータを活用し、空間領域と時間領域の両方における多元的共起関係をモデル化するグローバル局所的コントラスト損失を提案する。
大規模な実験結果から,提案手法は入力骨格データのビュー差に頑健であり,非教師なし骨格に基づく人体行動法の性能を著しく向上させ,PKUMMDとNTU RGB+Dの2つの挑戦的マルチビューベンチマークに対して,新たな最先端の精度をもたらすことが示された。
関連論文リスト
- One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Unsupervised View-Invariant Human Posture Representation [28.840986167408037]
本研究では、2次元画像からビュー不変な3次元ポーズ表現を抽出することを学ぶ新しい教師なしアプローチを提案する。
本モデルは,同時フレーム間の人間のポーズの内在的なビュー不変性を活用することで訓練される。
RGB画像と深度画像の非教師なしのクロスビュー動作分類精度の改善を示す。
論文 参考訳(メタデータ) (2021-09-17T19:23:31Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Skeleton-Contrastive 3D Action Representation Learning [35.06361753065124]
本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,PKUデータセットとNTUデータセットのスケルトンデータからの自己教師付き学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-08T14:44:59Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。