論文の概要: Point-Supervised Skeleton-Based Human Action Segmentation
- arxiv url: http://arxiv.org/abs/2603.06201v1
- Date: Fri, 06 Mar 2026 12:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.679462
- Title: Point-Supervised Skeleton-Based Human Action Segmentation
- Title(参考訳): ポイント・スーパービジョンされた骨格に基づくヒューマンアクション・セグメンテーション
- Authors: Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui,
- Abstract要約: 骨格に基づくアクションセグメンテーションのための点教師付きフレームワークを導入し,アクションセグメンテーション毎に1フレームのみをラベル付けする。
我々は, 関節, 骨, 運動情報を含むマルチモーダルスケルトンデータを利用して, 事前訓練された統一モデルを用いて符号化し, リッチな特徴表現を抽出する。
提案手法は,完全教師付き手法を超越した競争性能を実現する。
- 参考スコア(独自算出の注目度): 23.335246964537223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based temporal action segmentation is a fundamental yet challenging task, playing a crucial role in enabling intelligent systems to perceive and respond to human activities. While fully-supervised methods achieve satisfactory performance, they require costly frame-level annotations and are sensitive to ambiguous action boundaries. To address these issues, we introduce a point-supervised framework for skeleton-based action segmentation, where only a single frame per action segment is labeled. We leverage multimodal skeleton data, including joint, bone, and motion information, encoded via a pretrained unified model to extract rich feature representations. To generate reliable pseudo-labels, we propose a novel prototype similarity method and integrate it with two existing methods: energy function and constrained K-Medoids clustering. Multimodal pseudo-label integration is proposed to enhance the reliability of the pseudo-label and guide the model training. We establish new benchmarks on PKU-MMD (X-Sub and X-View), MCFS-22, and MCFS-130, and implement baselines for point-supervised skeleton-based human action segmentation. Extensive experiments show that our method achieves competitive performance, even surpassing some fully-supervised methods while significantly reducing annotation effort.
- Abstract(参考訳): 骨格をベースとした時間的行動セグメンテーションは、基本的なが困難な課題であり、知的システムが人間の活動を理解し、反応することを可能にする上で重要な役割を担っている。
完全な教師付き手法は十分な性能を達成するが、コストのかかるフレームレベルのアノテーションが必要であり、あいまいなアクション境界に敏感である。
これらの問題に対処するために、スケルトンに基づくアクションセグメンテーションのためのポイント教師付きフレームワークを導入し、アクションセグメンテーション毎に1フレームだけラベル付けする。
我々は, 関節, 骨, 運動情報を含むマルチモーダルスケルトンデータを利用して, 事前訓練された統一モデルを用いて符号化し, リッチな特徴表現を抽出する。
信頼性の高い擬似ラベルを生成するために,エネルギー関数と制約付きK-メドイドクラスタリングという2つの既存の手法と組み合わせた,新しいプロトタイプ類似性手法を提案する。
擬似ラベルの信頼性を高め,モデルトレーニングを指導するために,マルチモーダル擬似ラベル統合を提案する。
我々は,PKU-MMD (X-Sub and X-View), MCFS-22, MCFS-130 の新たなベンチマークを作成し,点教師付き骨格に基づく人間の行動セグメンテーションのベースラインを実装した。
大規模な実験により,提案手法は,アノテーションの労力を大幅に削減しつつ,完全教師付き手法を超越した競争性能を達成できることが判明した。
関連論文リスト
- Informative Sample Selection Model for Skeleton-based Action Recognition with Limited Training Samples [51.59753385094941]
半教師付き3D行動認識としても知られる訓練サンプルを用いた3D行動認識が提案されている。
我々は、マルコフ決定過程(MDP)としてキャストすることで、新しい視点からアクティブな学習を通して、半教師付き3次元行動認識を再構築する。
状態-作用対における因子の表現能力を高めるために、ユークリッド空間から双曲空間に投影する。
論文 参考訳(メタデータ) (2025-10-29T10:03:33Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Towards Open-World Human Action Segmentation Using Graph Convolutional Networks [6.167678490008973]
既存の学習ベースの手法は、クローズドワールドアクションセグメンテーションに優れている。
本研究では,目に見えない動作を検出し,セグメンテーションするための構造化フレームワークを提案する。
我々は,2つの挑戦的対象認識データセットについて,その枠組みを評価する。
論文 参考訳(メタデータ) (2025-07-01T14:00:39Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。