論文の概要: UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition
- arxiv url: http://arxiv.org/abs/2107.08580v1
- Date: Mon, 19 Jul 2021 02:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 01:33:26.480197
- Title: UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition
- Title(参考訳): UNIK: 現実の骨格に基づく行動認識のための統一フレームワーク
- Authors: Di Yang, Yaohui Wang, Antitza Dantcheva, Lorenzo Garattoni, Gianpiero
Francesca, Francois Bremond
- Abstract要約: UNIKは、データセットをまたいで一般化できる新しい骨格に基づく行動認識手法である。
実世界のビデオにおける行動認識のクロスドメイン一般化可能性について検討するため,提案したUNIKと同様に最先端のアプローチを再評価する。
その結果,提案したUNIKは,Poseticsを事前学習した上で,4つのターゲットアクション分類データセットに転送した場合に,最先端の処理性能を向上することがわかった。
- 参考スコア(独自算出の注目度): 11.81043814295441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action recognition based on skeleton data has recently witnessed increasing
attention and progress. State-of-the-art approaches adopting Graph
Convolutional networks (GCNs) can effectively extract features on human
skeletons relying on the pre-defined human topology. Despite associated
progress, GCN-based methods have difficulties to generalize across domains,
especially with different human topological structures. In this context, we
introduce UNIK, a novel skeleton-based action recognition method that is not
only effective to learn spatio-temporal features on human skeleton sequences
but also able to generalize across datasets. This is achieved by learning an
optimal dependency matrix from the uniform distribution based on a multi-head
attention mechanism. Subsequently, to study the cross-domain generalizability
of skeleton-based action recognition in real-world videos, we re-evaluate
state-of-the-art approaches as well as the proposed UNIK in light of a novel
Posetics dataset. This dataset is created from Kinetics-400 videos by
estimating, refining and filtering poses. We provide an analysis on how much
performance improves on smaller benchmark datasets after pre-training on
Posetics for the action classification task. Experimental results show that the
proposed UNIK, with pre-training on Posetics, generalizes well and outperforms
state-of-the-art when transferred onto four target action classification
datasets: Toyota Smarthome, Penn Action, NTU-RGB+D 60 and NTU-RGB+D 120.
- Abstract(参考訳): 骨格データに基づく行動認識は、最近注目と進歩の高まりを目撃している。
グラフ畳み込みネットワーク(gcns)を採用する最先端のアプローチは、予め定義された人間のトポロジーに依存する人間の骨格の特徴を効果的に抽出することができる。
関連する進歩にもかかわらず、GCNベースの手法は、特に異なるヒトのトポロジー構造を持つ領域をまたいだ一般化が困難である。
この文脈では,人間の骨格配列の時空間的特徴を学習するだけでなく,データセット全体にわたって一般化できる新しい骨格に基づく行動認識手法であるUNIKを導入する。
これはマルチヘッドアテンション機構に基づいて一様分布から最適な依存性行列を学習することによって達成される。
次に,実世界ビデオにおけるスケルトンベース行動認識のクロスドメイン一般化可能性について検討するため,新たなポスティクスデータセットに照らして,最先端のアプローチを再評価する。
このデータセットはkinetics-400ビデオから作成され、ポーズを推定、精製、フィルタリングする。
本稿では,アクション分類タスクのためのポーズ項目を事前トレーニングした後,より小さなベンチマークデータセットにおいて,パフォーマンスがどの程度向上するかを分析する。
実験結果から,提案したUNIKは,Toyota Smarthome, Penn Action, NTU-RGB+D 60, NTU-RGB+D 120の4つの目標行動分類データセットに移行した場合に,Poseticsを事前学習した上で,その精度を向上し,最先端を達成できることが示唆された。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeletal Human Action Recognition using Hybrid Attention based Graph
Convolutional Network [3.261599248682793]
相対的距離と相対的角度情報に基づいて局所的注意マップをグローバルに拡張する適応型空間的注意層を提案する。
我々は,頭部,手,足を結ぶ新しい初期グラフ隣接行列を設計し,行動認識精度の点で目に見える改善点を示す。
提案モデルは,日常生活における人間活動の分野における大規模かつ挑戦的な2つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-07-12T12:22:21Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - Unifying Graph Embedding Features with Graph Convolutional Networks for
Skeleton-based Action Recognition [18.001693718043292]
本稿では,人行動認識のためのグラフ畳み込みネットワークに15のグラフ埋め込み機能を組み込んだ新しいフレームワークを提案する。
我々のモデルは,NTU-RGB+D,Kineetics,SYSU-3Dという3つの大規模データセットで検証されている。
論文 参考訳(メタデータ) (2020-03-06T02:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。