論文の概要: Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2202.04075v1
- Date: Tue, 8 Feb 2022 16:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:13:48.117800
- Title: Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition
- Title(参考訳): 半教師付き骨格行動認識のための結合骨融合グラフ畳み込みネットワーク
- Authors: Zhigang Tu, Jiaxu Zhang, Hongyan Li, Yujin Chen, and Junsong Yuan
- Abstract要約: 本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
- 参考スコア(独自算出の注目度): 65.78703941973183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, graph convolutional networks (GCNs) play an increasingly
critical role in skeleton-based human action recognition. However, most
GCN-based methods still have two main limitations: 1) They only consider the
motion information of the joints or process the joints and bones separately,
which are unable to fully explore the latent functional correlation between
joints and bones for action recognition. 2) Most of these works are performed
in the supervised learning way, which heavily relies on massive labeled
training data. To address these issues, we propose a semi-supervised
skeleton-based action recognition method which has been rarely exploited
before. We design a novel correlation-driven joint-bone fusion graph
convolutional network (CD-JBF-GCN) as an encoder and use a pose prediction head
as a decoder to achieve semi-supervised learning. Specifically, the CD-JBF-GC
can explore the motion transmission between the joint stream and the bone
stream, so that promoting both streams to learn more discriminative feature
representations. The pose prediction based auto-encoder in the self-supervised
training stage allows the network to learn motion representation from unlabeled
data, which is essential for action recognition. Extensive experiments on two
popular datasets, i.e. NTU-RGB+D and Kinetics-Skeleton, demonstrate that our
model achieves the state-of-the-art performance for semi-supervised
skeleton-based action recognition and is also useful for fully-supervised
methods.
- Abstract(参考訳): 近年、グラフ畳み込みネットワーク(GCN)は骨格に基づく人間の行動認識においてますます重要な役割を担っている。
しかし、ほとんどのGCNベースのメソッドには2つの大きな制限がある。
1) 関節の運動情報や関節と骨を別々に処理することのみを考慮し, 動作認識のための関節と骨の潜在的機能相関を完全に探究することはできない。
2)これらの研究の多くは、大量のラベル付きトレーニングデータに大きく依存する教師あり学習方法で行われている。
この問題に対処するために,これまでほとんど利用されていない半教師付きスケルトンに基づく行動認識法を提案する。
相関駆動型結合骨融合グラフ畳み込みネットワーク(cd-jbf-gcn)をエンコーダとして設計し,半教師付き学習を実現するためにポーズ予測ヘッドをデコーダとして用いる。
具体的には、CD-JBF-GCは関節ストリームと骨ストリームの間の運動伝達を探索し、両方のストリームがより識別的な特徴表現を学習できるようにする。
自己教師付きトレーニングステージにおけるポーズ予測に基づく自動エンコーダにより、ネットワークは、動作認識に不可欠なラベルなしデータから動き表現を学習することができる。
NTU-RGB+D と Kinetics-Skeleton という2つの一般的なデータセットに対する大規模な実験により、このモデルが半教師付き骨格に基づく行動認識の最先端性能を実現し、完全教師付き手法にも有用であることを示す。
関連論文リスト
- Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Skeletal Human Action Recognition using Hybrid Attention based Graph
Convolutional Network [3.261599248682793]
相対的距離と相対的角度情報に基づいて局所的注意マップをグローバルに拡張する適応型空間的注意層を提案する。
我々は,頭部,手,足を結ぶ新しい初期グラフ隣接行列を設計し,行動認識精度の点で目に見える改善点を示す。
提案モデルは,日常生活における人間活動の分野における大規模かつ挑戦的な2つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-07-12T12:22:21Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Non-local Graph Convolutional Network for joint Activity Recognition and
Motion Prediction [2.580765958706854]
3次元骨格に基づく運動予測と行動認識は、人間の行動分析における2つの中間課題である。
本稿では, グラフ畳み込みニューラルネットワークとリカレントニューラルネットワークを併用した, 共同動作予測と活動認識のための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:07:10Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。