論文の概要: Generative Data Augmentation for Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2604.14933v1
- Date: Thu, 16 Apr 2026 12:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.888649
- Title: Generative Data Augmentation for Skeleton Action Recognition
- Title(参考訳): 骨格行動認識のための生成データ拡張
- Authors: Xu Dong, Wanqing Li, Anthony Adeyemi-Ejeye, Andrew Gilbert,
- Abstract要約: 骨格行動認識におけるデータ拡張のための条件付き生成パイプラインを提案する。
本手法は,動作ラベルの制約の下で実際の骨格配列の分布を学習する。
スケルトンシーケンスを効果的に生成し、低データシナリオでの競合認識性能を達成する。
- 参考スコア(独自算出の注目度): 12.151605559533337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based human action recognition is a powerful approach for understanding human behaviour from pose data, but collecting large-scale, diverse, and well-annotated 3D skeleton datasets is both expensive and labor-intensive. To address this challenge, we propose a conditional generative pipeline for data augmentation in skeleton action recognition. Our method learns the distribution of real skeleton sequences under the constraint of action labels, enabling the synthesis of diverse and high-fidelity data. Even with limited training samples, it can effectively generate skeleton sequences and achieve competitive recognition performance in low-data scenarios, demonstrating strong generalisation in downstream tasks. Specifically, we introduce a Transformer-based encoder-decoder architecture, combined with a generative refinement module and a dropout mechanism, to balance fidelity and diversity during sampling. Experiments on HumanAct12 and the refined NTU-RGBD (NTU-VIBE) dataset show that our approach consistently improves the accuracy of multiple skeleton-based action recognition models, validating its effectiveness in both few-shot and full-data settings. The source code can be found at here.
- Abstract(参考訳): 骨格に基づく人間の行動認識は、ポーズデータから人間の行動を理解するための強力なアプローチである。
この課題に対処するために,スケルトン行動認識におけるデータ拡張のための条件付き生成パイプラインを提案する。
本手法は,動作ラベルの制約の下で実際の骨格配列の分布を学習し,多種多様な高忠実度データの合成を可能にする。
限られたトレーニングサンプルであっても、スケルトンシーケンスを効果的に生成し、低データシナリオでの競合認識性能を実現し、下流タスクの強力な一般化を実証することができる。
具体的には,トランスフォーマーをベースとしたエンコーダデコーダアーキテクチャと,生成モジュールとドロップアウト機構を組み合わせることで,サンプリング時の忠実度と多様性のバランスをとる。
HumanAct12と改良NTU-RGBD(NTU-VIBE)データセットを用いた実験により、本手法は複数の骨格に基づく行動認識モデルの精度を一貫して改善し、少数ショットおよび全データ設定での有効性を検証した。
ソースコードはここにある。
関連論文リスト
- Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models [110.11712022072975]
骨格配列を画像ライクなデータに変換する新しい表現であるSkeleton-to-Imageを紹介する。
この符号化により、自己教師付き骨格表現学習のための強力な視覚事前学習モデルが利用可能となる。
論文 参考訳(メタデータ) (2026-03-06T06:54:55Z) - Informative Sample Selection Model for Skeleton-based Action Recognition with Limited Training Samples [51.59753385094941]
半教師付き3D行動認識としても知られる訓練サンプルを用いた3D行動認識が提案されている。
我々は、マルコフ決定過程(MDP)としてキャストすることで、新しい視点からアクティブな学習を通して、半教師付き3次元行動認識を再構築する。
状態-作用対における因子の表現能力を高めるために、ユークリッド空間から双曲空間に投影する。
論文 参考訳(メタデータ) (2025-10-29T10:03:33Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature Aggregation [34.65359766672547]
本稿では,最小限のデータによる効率的な適応を実現するために,ワンショットおよび限定的な学習環境について検討する。
我々は、既存のGCNベースのスケルトンアクション認識器とシームレスに統合される軽量なトレーニングパイプラインであるSkeletonXを紹介する。
従来の最先端の手法を1ショット設定で上回り、パラメータの1/10しかなく、FLOPもはるかに少ない。
論文 参考訳(メタデータ) (2025-04-16T04:01:42Z) - ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL [6.603505460200282]
非教師なし表現学習は、ラベルのない骨格データを活用する上で最も重要なものである。
ReL-SARと呼ばれる軽量な畳み込みトランスフォーマフレームワークを設計し、骨格配列の空間的および時間的キューを共同でモデル化する。
Bootstrap Your Own Latent (BYOL) を利用して、ラベルのない骨格配列データから堅牢な表現を学習する。
論文 参考訳(メタデータ) (2024-09-09T16:03:26Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - Spatial-temporal Transformer-guided Diffusion based Data Augmentation
for Efficient Skeleton-based Action Recognition [32.07659338674024]
骨格に基づく行動認識タスクのための新しいデータ拡張手法を提案する。
本手法は, 自然性および多様性の異なる指標に対して, 最先端(SOTA)モーション生成手法より優れる。
論文 参考訳(メタデータ) (2023-02-26T23:02:33Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。