論文の概要: Unified Keypoint-based Action Recognition Framework via Structured
Keypoint Pooling
- arxiv url: http://arxiv.org/abs/2303.15270v1
- Date: Mon, 27 Mar 2023 14:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:46:10.672751
- Title: Unified Keypoint-based Action Recognition Framework via Structured
Keypoint Pooling
- Title(参考訳): 構造化キーポイントプーリングによる統一キーポイントベース行動認識フレームワーク
- Authors: Ryo Hachiuma, Fumiaki Sato, Taiki Sekii
- Abstract要約: 本稿では,従来の骨格に基づく行動認識に関する3つの制限を同時に解決する。
アクション認識には、ポイントクラウドのディープラーニングパラダイムが導入される。
構造化キーポイントプールと呼ばれる新しいディープニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.255030588361124
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper simultaneously addresses three limitations associated with
conventional skeleton-based action recognition; skeleton detection and tracking
errors, poor variety of the targeted actions, as well as person-wise and
frame-wise action recognition. A point cloud deep-learning paradigm is
introduced to the action recognition, and a unified framework along with a
novel deep neural network architecture called Structured Keypoint Pooling is
proposed. The proposed method sparsely aggregates keypoint features in a
cascaded manner based on prior knowledge of the data structure (which is
inherent in skeletons), such as the instances and frames to which each keypoint
belongs, and achieves robustness against input errors. Its less constrained and
tracking-free architecture enables time-series keypoints consisting of human
skeletons and nonhuman object contours to be efficiently treated as an input 3D
point cloud and extends the variety of the targeted action. Furthermore, we
propose a Pooling-Switching Trick inspired by Structured Keypoint Pooling. This
trick switches the pooling kernels between the training and inference phases to
detect person-wise and frame-wise actions in a weakly supervised manner using
only video-level action labels. This trick enables our training scheme to
naturally introduce novel data augmentation, which mixes multiple point clouds
extracted from different videos. In the experiments, we comprehensively verify
the effectiveness of the proposed method against the limitations, and the
method outperforms state-of-the-art skeleton-based action recognition and
spatio-temporal action localization methods.
- Abstract(参考訳): 本稿では,従来のスケルトンベース行動認識に関する3つの制限を同時に扱う。スケルトン検出と追跡誤差,対象行動の多様性の低さ,人的およびフレーム的行動認識である。
アクション認識にはポイントクラウドのディープラーニングパラダイムが導入され、構造化キーポイントプールと呼ばれる新しいディープニューラルネットワークアーキテクチャとともに統一されたフレームワークが提案されている。
提案手法では,各キーポイントが属するインスタンスやフレームなどのデータ構造(骨格に固有の)の事前知識に基づいて,キーポイントの特徴を逐次的に集約し,入力エラーに対する頑健性を実現する。
その制約が少なくトラッキングフリーなアーキテクチャにより、人間の骨格と非人間の物体輪郭からなる時系列のキーポイントを、入力3dポイントクラウドとして効率的に扱うことができ、対象とするアクションの種類を拡張できる。
さらに,構造化キーポイントプールにインスパイアされたポーリングスイッチングトリックを提案する。
このトリックは、トレーニングフェーズと推論フェーズの間のプーリングカーネルを切り替え、ビデオレベルアクションラベルのみを使用して、弱い教師付き方法で人的およびフレーム的アクションを検出する。
この手法により,異なる映像から抽出した複数の点群を混合した新たなデータ拡張が自然に導入できる。
実験では,提案手法の限界に対する効果を包括的に検証し,最先端の骨格に基づく行動認識と時空間的行動ローカライゼーション法より優れていることを示す。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Expressive Keypoints for Skeleton-based Action Recognition via Skeleton Transformation [14.033701085783177]
我々は,手と足の詳細を組み込んだ表現的キーポイントを提案し,複雑な動作を識別する既存のモデルの識別能力を向上させる。
プラグアンドプレイのインスタンスプールモジュールは、計算コストを増大させることなく、マルチパーソンシナリオにアプローチを拡張するために利用されます。
論文 参考訳(メタデータ) (2024-06-26T01:48:56Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - From Keypoints to Object Landmarks via Self-Training Correspondence: A
novel approach to Unsupervised Landmark Discovery [37.78933209094847]
本稿ではオブジェクトランドマーク検出器の教師なし学習のための新しいパラダイムを提案する。
我々はLS3D、BBCPose、Human3.6M、PennActionなどの難解なデータセットに対して本手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-05-31T15:44:29Z) - Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。
本論文の主な焦点は、合成/ファウショット動作認識である。
レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文 参考訳(メタデータ) (2021-11-02T23:04:39Z) - Real-time Human Action Recognition Using Locally Aggregated
Kinematic-Guided Skeletonlet and Supervised Hashing-by-Analysis Model [30.435850177921086]
3次元動作認識には, 非常に複雑な調音, 大量のノイズ, 実装効率の低下という3つの問題がある。
本研究では,局所的に集約されたキネマティック誘導骨格 (LAKS) と教師付きハッシュ・バイ・アナリシス (SHA) モデルを組み合わせたリアルタイム3次元動作認識フレームワークを提案する。
MSRAction3D, UTKinectAction3DおよびFlorence3DActionデータセットの実験結果から, 提案手法は認識精度と実装効率の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-05-24T14:46:40Z) - Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds [81.12016263972298]
我々は,LiDAR点雲のための提案不要なパノプティックセグメンテーション手法であるパノスターを提案する。
従来のアプローチとは異なり、Panosterでは、インスタンスを識別するための学習ベースのクラスタリングソリューションを組み込んだ、シンプルなフレームワークを提案している。
推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-10-28T18:10:20Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。