論文の概要: Towards Universal Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2604.17013v1
- Date: Sat, 18 Apr 2026 14:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.287994
- Title: Towards Universal Skeleton-Based Action Recognition
- Title(参考訳): ユニバーサル骨格に基づく行動認識に向けて
- Authors: Jidong Kuang, Hongsong Wang, Jie Gui,
- Abstract要約: 本研究は,開語彙を用いたヘテロジニアス骨格に基づく行動認識の問題を研究する。
本稿では, 骨格の統一表現, 骨格の移動エンコーダ, 多粒な動きテキストアライメントの3つの重要な構成要素からなるトランスフォーマーモデルを提案する。
ヘテロジニアス骨格データを用いた一般的なベンチマーク実験では,提案手法の有効性と性能が実証された。
- 参考スコア(独自算出の注目度): 26.447920160010515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of robotics, skeleton-based action recognition has become increasingly important, as human-robot interaction requires understanding the actions of humans and humanoid robots. Due to different sources of human skeletons and structures of humanoid robots, skeleton data naturally exhibit heterogeneity. However, previous works overlook the data heterogeneity of skeletons and solely construct models using homogeneous skeletons. Moreover, open-vocabulary action recognition is also essential for real-world applications. To this end, this work studies the challenging problem of heterogeneous skeleton-based action recognition with open vocabularies. We construct a large-scale Heterogeneous Open-Vocabulary (HOV) Skeleton dataset by integrating and refining multiple representative large-scale skeleton-based action datasets. To address universal skeleton-based action recognition, we propose a Transformer-based model that comprises three key components: unified skeleton representation, motion encoder for skeletons, and multi-grained motion-text alignment. The motion encoder feeds multi-modal skeleton embeddings into a two-stream Transformer-based encoder to learn spatio-temporal action representations, which are then mapped to a semantic space to align with text embeddings. Multi-grained motion-text alignment incorporates contrastive learning at three levels: global instance alignment, stream-specific alignment, and fine-grained alignment. Extensive experiments on popular benchmarks with heterogeneous skeleton data demonstrate both the effectiveness and the generalization ability of the proposed method. Code is available at https://github.com/jidongkuang/Universal-Skeleton.
- Abstract(参考訳): ロボット工学の発展に伴い、人間とロボットの相互作用には人間とヒューマノイドロボットの動作を理解する必要があるため、骨格に基づく行動認識の重要性が高まっている。
ヒトの骨格と人型ロボットの構造の異なるため、骨格データは自然に異質性を示す。
しかし、以前の研究は骨格のデータ不均一性を見落とし、同質骨格を用いたモデルのみを構築した。
さらに、実世界のアプリケーションにはオープン語彙のアクション認識が不可欠である。
そこで本研究では,開語彙を用いたヘテロジニアス骨格に基づく行動認識の課題について検討する。
複数の代表的大規模骨格に基づく行動データセットの統合と精錬により、大規模な不均一な開語彙(HOV)スケルトンデータセットを構築した。
普遍的な骨格に基づく行動認識を実現するために,骨格の統一表現,骨格の動作エンコーダ,多粒な動きテキストアライメントという3つの重要な要素からなるトランスフォーマーモデルを提案する。
モーションエンコーダは、2ストリームのTransformerベースのエンコーダにマルチモーダルスケルトンを埋め込んで、時空間の表現を学習する。
多粒な動きテキストアライメントは、大域的なインスタンスアライメント、ストリーム固有のアライメント、微粒なアライメントの3つのレベルにおいて、対照的な学習を取り入れている。
ヘテロジニアス骨格データを用いた一般的なベンチマーク実験により,提案手法の有効性と一般化能力の両立を実証した。
コードはhttps://github.com/jidongkuang/Universal-Skeletonで入手できる。
関連論文リスト
- Generative Data Augmentation for Skeleton Action Recognition [12.151605559533337]
骨格行動認識におけるデータ拡張のための条件付き生成パイプラインを提案する。
本手法は,動作ラベルの制約の下で実際の骨格配列の分布を学習する。
スケルトンシーケンスを効果的に生成し、低データシナリオでの競合認識性能を達成する。
論文 参考訳(メタデータ) (2026-04-16T12:20:29Z) - Topology-Agnostic Animal Motion Generation from Text Prompt [16.557163253248817]
OmniZooは140種32,979配列にまたがる大規模動物運動データセットである。
本稿では,任意の骨格トポロジに対してテキスト駆動動作を生成可能な,一般化された自己回帰運動生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-11T07:08:29Z) - Heterogeneous Skeleton-Based Action Representation Learning [12.690541950946358]
この研究は、ヘテロジニアス骨格に基づく行動表現学習の課題に対処する。
提案するフレームワークは, ヘテロジニアスケルトン処理と統一表現学習の2つの主要コンポーネントから構成される。
我々のアプローチは、異なるヒューマノイド構造を持つロボットの行動認識に適用できる。
論文 参考訳(メタデータ) (2025-06-04T01:39:13Z) - AnyTop: Character Animation Diffusion with Any Topology [54.07731933876742]
我々は,異なる動きダイナミクスを持つ多種多様な文字に対する動きを生成する拡散モデルであるAnyTopを紹介する。
我々の研究は、任意の骨格学習に適したトランスフォーマーベースの認知ネットワークを特徴としている。
我々の評価では、AnyTopsはトポロジー当たりのトレーニング例が3つも少なく、見えない骨格の運動も生成できる。
論文 参考訳(メタデータ) (2025-02-24T17:00:36Z) - Motif Guided Graph Transformer with Combinatorial Skeleton Prototype Learning for Skeleton-Based Person Re-Identification [60.939250172443586]
3Dスケルトンデータによる人物再識別(re-ID)は多くのシナリオにおいて重要な価値を持つ課題である。
既存の骨格に基づく手法は、典型的には全ての関節間の仮想運動関係を仮定し、学習に平均的な関節またはシーケンス表現を採用する。
本稿では,Y Combinatorial skeleton prototype learning (MoCos)を用いた汎用Motifガイドグラフトランスフォーマを提案する。
MoCosは、構造特異的で歩行関連のある身体関係とスケルトングラフの特徴を利用して、人物のre-IDに効果的な骨格表現を学習する。
論文 参考訳(メタデータ) (2024-12-12T08:13:29Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。