論文の概要: Foundation Model for Skeleton-Based Human Action Understanding
- arxiv url: http://arxiv.org/abs/2508.12586v1
- Date: Mon, 18 Aug 2025 02:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.948904
- Title: Foundation Model for Skeleton-Based Human Action Understanding
- Title(参考訳): 骨格に基づく人間行動理解のための基礎モデル
- Authors: Hongsong Wang, Wanjiang Weng, Junbo Wang, Fang Zhao, Guo-Sen Xie, Xin Geng, Liang Wang,
- Abstract要約: 本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
- 参考スコア(独自算出の注目度): 56.89025287217221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human action understanding serves as a foundational pillar in the field of intelligent motion perception. Skeletons serve as a modality- and device-agnostic representation for human modeling, and skeleton-based action understanding has potential applications in humanoid robot control and interaction. \RED{However, existing works often lack the scalability and generalization required to handle diverse action understanding tasks. There is no skeleton foundation model that can be adapted to a wide range of action understanding tasks}. This paper presents a Unified Skeleton-based Dense Representation Learning (USDRL) framework, which serves as a foundational model for skeleton-based human action understanding. USDRL consists of a Transformer-based Dense Spatio-Temporal Encoder (DSTE), Multi-Grained Feature Decorrelation (MG-FD), and Multi-Perspective Consistency Training (MPCT). The DSTE module adopts two parallel streams to learn temporal dynamic and spatial structure features. The MG-FD module collaboratively performs feature decorrelation across temporal, spatial, and instance domains to reduce dimensional redundancy and enhance information extraction. The MPCT module employs both multi-view and multi-modal self-supervised consistency training. The former enhances the learning of high-level semantics and mitigates the impact of low-level discrepancies, while the latter effectively facilitates the learning of informative multimodal features. We perform extensive experiments on 25 benchmarks across across 9 skeleton-based action understanding tasks, covering coarse prediction, dense prediction, and transferred prediction. Our approach significantly outperforms the current state-of-the-art methods. We hope that this work would broaden the scope of research in skeleton-based action understanding and encourage more attention to dense prediction tasks.
- Abstract(参考訳): 人間の行動理解は、知的運動知覚の分野における基礎的な柱として機能する。
骨格は人間のモデリングのモダリティとデバイスに依存しない表現として機能し、骨格に基づく行動理解はヒューマノイドロボットの制御と相互作用に潜在的に応用できる。
しかし、既存の作業は様々なアクション理解タスクを扱うのに必要なスケーラビリティと一般化を欠いていることが多い。
幅広い行動理解タスクに適応できる骨格基盤モデルは存在しない。
本稿では,骨格に基づく人間の行動理解の基礎モデルとして機能する,統一骨格に基づくDense Representation Learning(USDRL)フレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal Encoder (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
DSTEモジュールは2つの並列ストリームを採用し、時間的動的および空間的構造の特徴を学習する。
MG-FDモジュールは、時間領域、空間領域、インスタンス領域をまたいで特徴デコレーションを行い、次元の冗長性を低減し、情報抽出を強化する。
MPCTモジュールはマルチビューとマルチモーダルな自己教師型一貫性トレーニングの両方を採用している。
前者は高レベルのセマンティクスの学習を強化し、低レベルの不一致の影響を緩和し、後者は情報的マルチモーダルな特徴の学習を効果的に促進する。
9つの骨格に基づく行動理解タスクにまたがる25のベンチマークで、粗い予測、密集した予測、転送された予測について広範な実験を行った。
我々の手法は現在の最先端手法よりも大幅に優れています。
この研究が骨格に基づく行動理解の研究範囲を広げ、より密集した予測タスクにもっと注意を向けることを願っている。
関連論文リスト
- Self-Controlled Dynamic Expansion Model for Continual Learning [10.447232167638816]
本稿では, 自己制御型動的拡張モデル(SCDEM)を提案する。
SCDEMは複数のトレーニング可能なトレーニング済みのViTバックボーンを編成し、多様で意味的に豊かな表現を提供する。
提案手法の有効性を評価するため,幅広い実験が実施されている。
論文 参考訳(メタデータ) (2025-04-14T15:22:51Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Learning Multiscale Correlations for Human Motion Prediction [10.335804615372629]
本研究では、人体成分間の相関を捕捉する新しいマルチスケールグラフ畳み込みネットワーク(MGCN)を提案する。
ヒューマンモーション予測のための2つの標準ベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-03-19T07:58:16Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。