論文の概要: Navigating Open Set Scenarios for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2312.06330v1
- Date: Mon, 11 Dec 2023 12:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:57:10.994674
- Title: Navigating Open Set Scenarios for Skeleton-based Action Recognition
- Title(参考訳): 骨格に基づく行動認識のためのオープンセットシナリオのナビゲーション
- Authors: Kunyu Peng, Cheng Yin, Junwei Zheng, Ruiping Liu, David Schneider,
Jiaming Zhang, Kailun Yang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina
Roitberg
- Abstract要約: 探索されていないオープンセット骨格に基づく行動認識(OS-SAR)課題に取り組む。
そこで本稿では, 骨格関節, 骨, 速度の相互アライメントを利用した距離に基づく相互モーダル法を提案する。
- 参考スコア(独自算出の注目度): 45.488649741347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world scenarios, human actions often fall outside the distribution of
training data, making it crucial for models to recognize known actions and
reject unknown ones. However, using pure skeleton data in such open-set
conditions poses challenges due to the lack of visual background cues and the
distinct sparse structure of body pose sequences. In this paper, we tackle the
unexplored Open-Set Skeleton-based Action Recognition (OS-SAR) task and
formalize the benchmark on three skeleton-based datasets. We assess the
performance of seven established open-set approaches on our task and identify
their limits and critical generalization issues when dealing with skeleton
information. To address these challenges, we propose a distance-based
cross-modality ensemble method that leverages the cross-modal alignment of
skeleton joints, bones, and velocities to achieve superior open-set recognition
performance. We refer to the key idea as CrossMax - an approach that utilizes a
novel cross-modality mean max discrepancy suppression mechanism to align latent
spaces during training and a cross-modality distance-based logits refinement
method during testing. CrossMax outperforms existing approaches and
consistently yields state-of-the-art results across all datasets and backbones.
The benchmark, code, and models will be released at
https://github.com/KPeng9510/OS-SAR.
- Abstract(参考訳): 現実のシナリオでは、人間の行動はトレーニングデータの分布外にあることが多く、モデルが既知の行動を認識し、未知の行動を拒否することが重要である。
しかし、そのようなオープンセット条件における純粋な骨格データの使用は、視覚的背景の手がかりの欠如と、身体のポーズ配列の異なるスパース構造により、課題を生じさせる。
本稿では,未探索のOpen-Set Skeleton-based Action Recognition (OS-SAR)タスクに取り組み,スケルトンに基づく3つのデータセットのベンチマークを定式化する。
本研究では,我々の課題に対する7つのオープンセット手法の性能評価を行い,骨格情報を扱う際の限界と重要な一般化問題を明らかにする。
これらの課題に対処するために, 骨格関節, 骨, 速度のクロスモーダルアライメントを利用して, より優れたオープンセット認識性能を実現する, 距離に基づくクロスモーダルアンサンブル法を提案する。
crossmax - トレーニング中に潜在空間を整列させるための新しいクロスモダリティ平均最大偏差抑制機構と、テスト中にクロスモダリティ距離に基づくロジッツリファインメント法を利用するアプローチである。
CrossMaxは既存のアプローチより優れており、すべてのデータセットとバックボーンで常に最先端の結果が得られる。
ベンチマーク、コード、モデルはhttps://github.com/KPeng9510/OS-SARでリリースされる。
関連論文リスト
- Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition [4.036669828958854]
本研究では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。
空間グラフでは、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持する。
本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
論文 参考訳(メタデータ) (2024-09-26T15:28:25Z) - Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions [40.322770236718775]
本稿では,自律型ロボットシステムに自己教師付き骨格に基づく行動認識手法を統合する手法を提案する。
まず、隠蔽されたスケルトン配列を用いて事前トレーニングを行い、次にk平均クラスタリング(KMeans)を用いてシーケンス埋め込みを行い、意味的に類似したサンプルをグループ化する。
比較的完全な配列を生成するために不完全な骨格配列を挿入することは、既存の骨格に基づく自己管理法に重要な利益をもたらす。
論文 参考訳(メタデータ) (2023-09-21T12:51:11Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition [11.81043814295441]
UNIKは、データセットをまたいで一般化できる新しい骨格に基づく行動認識手法である。
実世界のビデオにおける行動認識のクロスドメイン一般化可能性について検討するため,提案したUNIKと同様に最先端のアプローチを再評価する。
その結果,提案したUNIKは,Poseticsを事前学習した上で,4つのターゲットアクション分類データセットに転送した場合に,最先端の処理性能を向上することがわかった。
論文 参考訳(メタデータ) (2021-07-19T02:00:28Z) - Predictively Encoded Graph Convolutional Network for Noise-Robust
Skeleton-based Action Recognition [6.729108277517129]
本研究では,骨格特徴の雑音情報に対して頑健な骨格に基づく行動認識手法を提案する。
本手法は, 既存の最先端手法と比較して, スケルトンサンプルがノイズを受ける場合の優れた性能を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。