論文の概要: Skeleton-Snippet Contrastive Learning with Multiscale Feature Fusion for Action Localization
- arxiv url: http://arxiv.org/abs/2512.16504v1
- Date: Thu, 18 Dec 2025 13:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.068672
- Title: Skeleton-Snippet Contrastive Learning with Multiscale Feature Fusion for Action Localization
- Title(参考訳): アクションローカライゼーションのためのマルチスケール特徴融合を用いたスケルトン・スニペットコントラスト学習
- Authors: Qiushuo Cheng, Jingjing Liu, Catherine Morgan, Alan Whone, Majid Mirmehdi,
- Abstract要約: 我々は,自己教師付き事前学習のためのスニペット識別用プレテキストタスクを開発した。
また、U字型モジュールで中間特徴を融合させることにより、骨格に基づく行動認識モデルの強力なバックボーンを構築した。
BABEL上でのアクションローカライゼーションにおいて,既存の骨格に基づくコントラスト学習手法を一貫して改良する。
- 参考スコア(独自算出の注目度): 8.574131591092138
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The self-supervised pretraining paradigm has achieved great success in learning 3D action representations for skeleton-based action recognition using contrastive learning. However, learning effective representations for skeleton-based temporal action localization remains challenging and underexplored. Unlike video-level {action} recognition, detecting action boundaries requires temporally sensitive features that capture subtle differences between adjacent frames where labels change. To this end, we formulate a snippet discrimination pretext task for self-supervised pretraining, which densely projects skeleton sequences into non-overlapping segments and promotes features that distinguish them across videos via contrastive learning. Additionally, we build on strong backbones of skeleton-based action recognition models by fusing intermediate features with a U-shaped module to enhance feature resolution for frame-level localization. Our approach consistently improves existing skeleton-based contrastive learning methods for action localization on BABEL across diverse subsets and evaluation protocols. We also achieve state-of-the-art transfer learning performance on PKUMMD with pretraining on NTU RGB+D and BABEL.
- Abstract(参考訳): 自己教師型事前学習パラダイムは, コントラスト学習を用いた骨格型行動認識のための3次元行動表現の学習において大きな成功を収めた。
しかし、骨格に基づく時間的行動の局所化のための効果的な表現の学習は依然として困難であり、過小評価されている。
ビデオレベルの {action} 認識とは異なり、アクション境界の検出には時間的に敏感な機能が必要である。
この目的のために、自己教師付き事前訓練のためのスニペット識別前テキストタスクを定式化し、スケルトン配列を非重複セグメントに高密度に投影し、コントラスト学習を通じてビデオ間で区別する特徴を促進する。
さらに、フレームレベルのローカライズのための特徴分解能を高めるために、U字型モジュールで中間特徴を融合させることにより、骨格に基づく行動認識モデルの強力なバックボーンを構築する。
提案手法は,多様なサブセットと評価プロトコルにまたがって,BABEL上でのアクションローカライゼーションのための既存の骨格に基づくコントラスト学習手法を一貫して改善する。
また,NTU RGB+D と BABEL を事前学習することで,PKUMMD における最先端の伝達学習性能を実現する。
関連論文リスト
- Informative Sample Selection Model for Skeleton-based Action Recognition with Limited Training Samples [51.59753385094941]
半教師付き3D行動認識としても知られる訓練サンプルを用いた3D行動認識が提案されている。
我々は、マルコフ決定過程(MDP)としてキャストすることで、新しい視点からアクティブな学習を通して、半教師付き3次元行動認識を再構築する。
状態-作用対における因子の表現能力を高めるために、ユークリッド空間から双曲空間に投影する。
論文 参考訳(メタデータ) (2025-10-29T10:03:33Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。
クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。
提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-05-31T03:40:15Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Part Aware Contrastive Learning for Self-Supervised Action Recognition [18.423841093299135]
本稿では,骨格表現学習のための注意に基づくコントラスト学習フレームワークであるSkeAttnCLRを提案する。
提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2023-05-01T05:31:48Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Skeleton Based Action Recognition using a Stacked Denoising Autoencoder
with Constraints of Privileged Information [5.67220249825603]
本稿では骨格再構築の観点から骨格表現を研究するための新しい手法を提案する。
特権情報に基づく学習の概念に基づいて,動作カテゴリと時間座標を重畳したデノナイジングオートエンコーダに統合する。
一時的ミスアライメントによる変動を軽減するため,新しい時間的登録法を提案する。
論文 参考訳(メタデータ) (2020-03-12T09:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。