論文の概要: SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature Aggregation
- arxiv url: http://arxiv.org/abs/2504.11749v1
- Date: Wed, 16 Apr 2025 04:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:45.431541
- Title: SkeletonX: Data-Efficient Skeleton-based Action Recognition via Cross-sample Feature Aggregation
- Title(参考訳): SkeletonX: クロスサンプル特徴集合によるデータ効率の良いスケルトンに基づく行動認識
- Authors: Zongye Zhang, Wenrui Cai, Qingjie Liu, Yunhong Wang,
- Abstract要約: 本稿では,最小限のデータによる効率的な適応を実現するために,ワンショットおよび限定的な学習環境について検討する。
我々は、既存のGCNベースのスケルトンアクション認識器とシームレスに統合される軽量なトレーニングパイプラインであるSkeletonXを紹介する。
従来の最先端の手法を1ショット設定で上回り、パラメータの1/10しかなく、FLOPもはるかに少ない。
- 参考スコア(独自算出の注目度): 34.65359766672547
- License:
- Abstract: While current skeleton action recognition models demonstrate impressive performance on large-scale datasets, their adaptation to new application scenarios remains challenging. These challenges are particularly pronounced when facing new action categories, diverse performers, and varied skeleton layouts, leading to significant performance degeneration. Additionally, the high cost and difficulty of collecting skeleton data make large-scale data collection impractical. This paper studies one-shot and limited-scale learning settings to enable efficient adaptation with minimal data. Existing approaches often overlook the rich mutual information between labeled samples, resulting in sub-optimal performance in low-data scenarios. To boost the utility of labeled data, we identify the variability among performers and the commonality within each action as two key attributes. We present SkeletonX, a lightweight training pipeline that integrates seamlessly with existing GCN-based skeleton action recognizers, promoting effective training under limited labeled data. First, we propose a tailored sample pair construction strategy on two key attributes to form and aggregate sample pairs. Next, we develop a concise and effective feature aggregation module to process these pairs. Extensive experiments are conducted on NTU RGB+D, NTU RGB+D 120, and PKU-MMD with various GCN backbones, demonstrating that the pipeline effectively improves performance when trained from scratch with limited data. Moreover, it surpasses previous state-of-the-art methods in the one-shot setting, with only 1/10 of the parameters and much fewer FLOPs. The code and data are available at: https://github.com/zzysteve/SkeletonX
- Abstract(参考訳): 現在のスケルトンアクション認識モデルは、大規模なデータセットで素晴らしいパフォーマンスを示しているが、新しいアプリケーションシナリオへの適応は依然として難しい。
これらの課題は、新しいアクションカテゴリ、多様なパフォーマー、様々なスケルトンレイアウトに直面すると特に顕著になり、パフォーマンスが著しく低下する。
さらに、スケルトンデータ収集のコストと難しさは、大規模なデータ収集を非現実的にする。
本稿では,最小限のデータによる効率的な適応を実現するために,ワンショットおよび限定的な学習環境について検討する。
既存のアプローチはしばしばラベル付きサンプル間の豊富な相互情報を見落とし、結果として低データシナリオにおける準最適性能をもたらす。
ラベル付きデータの有用性を高めるために,パフォーマー間の多様性と各アクションの共通性を2つの重要な属性として同定する。
我々は、既存のGCNベースのスケルトン行動認識器とシームレスに統合し、ラベル付きデータによる効果的なトレーニングを促進する軽量トレーニングパイプラインであるSkeletonXを提案する。
まず,2つのキー属性を用いたサンプルペア構築戦略を提案し,サンプルペアの生成と集約を行う。
次に、これらのペアを処理するための簡潔で効果的な機能集約モジュールを開発する。
NTU RGB+D, NTU RGB+D 120, PKU-MMDを各種のGCNバックボーンで大規模な実験を行い, 限られたデータでスクラッチからトレーニングすると, パイプラインの性能が向上することを示した。
さらに、従来の最先端の手法を1ショット設定で上回り、パラメータの1/10しかなく、FLOPもはるかに少ない。
コードとデータは、https://github.com/zzysteve/SkeletonX.comで入手できる。
関連論文リスト
- Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - AdaSGN: Adapting Joint Number and Model Size for Efficient
Skeleton-Based Action Recognition [45.6728814296272]
既存の骨格に基づく行動認識法は主に認識精度の向上に重点を置いている。
AdaSGNと呼ばれる新しいアプローチが提案され、推論プロセスの計算コストを削減することができる。
論文 参考訳(メタデータ) (2021-03-22T12:36:39Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。