論文の概要: Zero-shot Skeleton-based Action Recognition with Prototype-guided Feature Alignment
- arxiv url: http://arxiv.org/abs/2507.00566v1
- Date: Tue, 01 Jul 2025 08:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.54143
- Title: Zero-shot Skeleton-based Action Recognition with Prototype-guided Feature Alignment
- Title(参考訳): プロトタイプ誘導特徴アライメントを用いたゼロショット骨格に基づく行動認識
- Authors: Kai Zhou, Shuhai Zhang, Zeng You, Jinwu Hu, Mingkui Tan, Fei Liu,
- Abstract要約: ゼロショットスケルトンに基づくアクション認識は、トレーニング中にそのようなカテゴリに事前に触れることなく、目に見えないスケルトンに基づく人間のアクションを分類することを目的としている。
従来の研究では2段階のトレーニングが用いられており、例えば、クロスエントロピー損失を用いたアクションカテゴリのスケルトンエンコーダの事前訓練、抽出されたスケルトンとテキストの特徴の整列などである。
PGFAと呼ばれるゼロショット骨格に基づく行動認識のためのプロトタイプ誘導型特徴アライメントパラダイムを提案する。
- 参考スコア(独自算出の注目度): 33.06899506252672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot skeleton-based action recognition aims to classify unseen skeleton-based human actions without prior exposure to such categories during training. This task is extremely challenging due to the difficulty in generalizing from known to unknown actions. Previous studies typically use two-stage training: pre-training skeleton encoders on seen action categories using cross-entropy loss and then aligning pre-extracted skeleton and text features, enabling knowledge transfer to unseen classes through skeleton-text alignment and language models' generalization. However, their efficacy is hindered by 1) insufficient discrimination for skeleton features, as the fixed skeleton encoder fails to capture necessary alignment information for effective skeleton-text alignment; 2) the neglect of alignment bias between skeleton and unseen text features during testing. To this end, we propose a prototype-guided feature alignment paradigm for zero-shot skeleton-based action recognition, termed PGFA. Specifically, we develop an end-to-end cross-modal contrastive training framework to improve skeleton-text alignment, ensuring sufficient discrimination for skeleton features. Additionally, we introduce a prototype-guided text feature alignment strategy to mitigate the adverse impact of the distribution discrepancy during testing. We provide a theoretical analysis to support our prototype-guided text feature alignment strategy and empirically evaluate our overall PGFA on three well-known datasets. Compared with the top competitor SMIE method, our PGFA achieves absolute accuracy improvements of 22.96%, 12.53%, and 18.54% on the NTU-60, NTU-120, and PKU-MMD datasets, respectively.
- Abstract(参考訳): ゼロショットスケルトンに基づくアクション認識は、トレーニング中にそのようなカテゴリに事前に触れることなく、目に見えないスケルトンに基づく人間のアクションを分類することを目的としている。
この課題は、既知の行動から未知の行動への一般化が難しいため、極めて困難である。
クロスエントロピー損失を用いた動作カテゴリの事前訓練スケルトンエンコーダの訓練と、抽出済みスケルトンとテキストの特徴の整合化、スケルトンテキストアライメントと言語モデルの一般化による未確認クラスへの知識伝達を可能にする。
しかし、その効力は妨げられる。
1) 固定スケルトンエンコーダは、有効なスケルトンテキストアライメントに必要なアライメント情報を取得できないため、スケルトンの特徴の識別が不十分である。
2) テスト中の骨格と見えないテキストの特徴のアライメントバイアスの無視。
そこで本研究では, PGFAと呼ばれるゼロショットスケルトンに基づく動作認識のためのプロトタイプ誘導型特徴アライメントパラダイムを提案する。
具体的には,スケルトンとテキストのアライメントを向上し,骨格の特徴の十分な識別を確保するために,エンドツーエンドのクロスモーダルコントラストトレーニングフレームワークを開発する。
さらに,テスト中の分散不一致の悪影響を軽減するために,プロトタイプ誘導型テキスト特徴アライメント戦略を導入する。
筆者らは,プロトタイプ誘導型テキスト特徴アライメント戦略をサポートする理論解析を行い,PGFA全体の評価を3つのよく知られたデータセット上で実証的に行う。
NTU-60, NTU-120, PKU-MMDデータセットにおいて, PGFAの絶対精度は22.96%, 12.53%, 18.54%向上した。
関連論文リスト
- TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition [25.341177384559174]
ゼロショットスケルトンに基づくアクション認識では、見えないアクションを正確に予測するためには、スケルトン特徴とアクションラベルのテキスト特徴との整合が不可欠である。
本フレームワークは,スケルトン・テキストマッチング(TDSM)方式のトリプルト拡散として設計されており,スケルトンの特徴を逆拡散によるテキストプロンプトと整合させる。
識別力を高めるために,TDSMが不正確な3重項拡散(TD)損失を生じさせ,不正確な3重項拡散(TD)を推し進める。
論文 参考訳(メタデータ) (2024-11-16T08:55:18Z) - Affinity-Graph-Guided Contractive Learning for Pretext-Free Medical Image Segmentation with Minimal Annotation [55.325956390997]
本稿では,医用画像セグメンテーションのための親和性グラフ誘導半教師付きコントラスト学習フレームワーク(Semi-AGCL)を提案する。
このフレームワークは、まず、ロバストな初期特徴空間を提供する平均パッチエントロピー駆動のパッチ間サンプリング法を設計する。
完全アノテーションセットの10%に過ぎず, 完全注釈付きベースラインの精度にアプローチし, 限界偏差は2.52%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-14T10:44:47Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition [10.403751563214113]
本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback [69.4639239117551]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。
本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文 参考訳(メタデータ) (2023-07-20T13:40:22Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。