論文の概要: Group-Skeleton-Based Human Action Recognition in Complex Events
- arxiv url: http://arxiv.org/abs/2011.13273v2
- Date: Thu, 25 Feb 2021 03:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-20 09:05:25.298582
- Title: Group-Skeleton-Based Human Action Recognition in Complex Events
- Title(参考訳): 複合イベントにおけるグループ骨格に基づく人間行動認識
- Authors: Tingtian Li, Zixun Sun, Xiao Chen
- Abstract要約: 本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 15.649778891665468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition as an important application of computer vision has
been studied for decades. Among various approaches, skeleton-based methods
recently attract increasing attention due to their robust and superior
performance. However, existing skeleton-based methods ignore the potential
action relationships between different persons, while the action of a person is
highly likely to be impacted by another person especially in complex events. In
this paper, we propose a novel group-skeleton-based human action recognition
method in complex events. This method first utilizes multi-scale
spatial-temporal graph convolutional networks (MS-G3Ds) to extract skeleton
features from multiple persons. In addition to the traditional key point
coordinates, we also input the key point speed values to the networks for
better performance. Then we use multilayer perceptrons (MLPs) to embed the
distance values between the reference person and other persons into the
extracted features. Lastly, all the features are fed into another MS-G3D for
feature fusion and classification. For avoiding class imbalance problems, the
networks are trained with a focal loss. The proposed algorithm is also our
solution for the Large-scale Human-centric Video Analysis in Complex Events
Challenge. Results on the HiEve dataset show that our method can give superior
performance compared to other state-of-the-art methods.
- Abstract(参考訳): 人間の行動認識はコンピュータビジョンの重要な応用として何十年も研究されてきた。
様々なアプローチの中で、スケルトンベースの手法は、頑丈で優れた性能のために近年注目を集めている。
しかし、既存の骨格に基づく手法では、人間の潜在的な行動関係は無視されるが、人の行動は、特に複雑な出来事において他人の影響を受けやすい。
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
従来のキーポイント座標に加えて、ネットワークにキーポイント速度値を入力し、パフォーマンスを向上させる。
次に、マルチ層パーセプトロン(MLP)を用いて、参照者と他者間の距離値を抽出した特徴量に埋め込む。
最後に、全ての機能は機能融合と分類のために別のMS-G3Dに供給される。
クラス不均衡問題を回避するため、ネットワークは焦点損失で訓練される。
提案アルゴリズムは,複合イベントチャレンジにおける大規模人中心ビデオ解析のソリューションでもある。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
関連論文リスト
- Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - View-Invariant Skeleton-based Action Recognition via Global-Local
Contrastive Learning [15.271862140292837]
骨格に基づく人間の行動認識のための手動動作ラベル付けを使わずに、新しいビュー不変表現学習手法を提案する。
我々は、異なる視点から抽出された表現間の相互情報を最大化することにより、ネットワークトレーニングにおいて同一人物に対して同時に取られたマルチビュースケルトンデータを活用する。
提案手法は,入力スケルトンデータのビュー差に頑健であり,教師なしスケルトンに基づく人体行動法の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-09-23T15:00:57Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - Gesture Recognition from Skeleton Data for Intuitive Human-Machine
Interaction [0.6875312133832077]
本稿では,手工芸品の集合に基づく動的ジェスチャーのセグメント化と分類のためのアプローチを提案する。
ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。
最終的に、認識されたジェスチャーは、協調ロボットと対話するために使用される。
論文 参考訳(メタデータ) (2020-08-26T11:28:50Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。