論文の概要: Boosting Skeleton-based Zero-Shot Action Recognition with Training-Free Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2512.11458v1
- Date: Fri, 12 Dec 2025 10:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.73616
- Title: Boosting Skeleton-based Zero-Shot Action Recognition with Training-Free Test-Time Adaptation
- Title(参考訳): 学習自由なテスト時間適応による骨格に基づくゼロショット動作認識
- Authors: Jingmin Zhu, Anqi Zhu, Hossein Rahmani, Jun Liu, Mohammed Bennamoun, Qiuhong Ke,
- Abstract要約: スケルトンベースのゼロショットアクション認識(SZAR)のためのトレーニング不要適応フレームワークであるSkeleton-Cacheを紹介した。
Skeleton-Cacheは、非パラメトリックキャッシュ上の軽量な検索プロセスとして推論を再構成する。
NTU RGB+D 60/120とPKU-MMD IIの実験では、Skeleton-Cacheは様々なSZARバックボーンの性能を一貫して向上させることを示した。
- 参考スコア(独自算出の注目度): 52.02799244361572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Skeleton-Cache, the first training-free test-time adaptation framework for skeleton-based zero-shot action recognition (SZAR), aimed at improving model generalization to unseen actions during inference. Skeleton-Cache reformulates inference as a lightweight retrieval process over a non-parametric cache that stores structured skeleton representations, combining both global and fine-grained local descriptors. To guide the fusion of descriptor-wise predictions, we leverage the semantic reasoning capabilities of large language models (LLMs) to assign class-specific importance weights. By integrating these structured descriptors with LLM-guided semantic priors, Skeleton-Cache dynamically adapts to unseen actions without any additional training or access to training data. Extensive experiments on NTU RGB+D 60/120 and PKU-MMD II demonstrate that Skeleton-Cache consistently boosts the performance of various SZAR backbones under both zero-shot and generalized zero-shot settings. The code is publicly available at https://github.com/Alchemist0754/Skeleton-Cache.
- Abstract(参考訳): スケルトンベースのゼロショットアクション認識(SZAR)のための、最初のトレーニング不要なテスト時間適応フレームワークであるSkeleton-Cacheを紹介した。
Skeleton-Cacheは、構造化されたスケルトン表現を格納する非パラメトリックキャッシュ上の軽量な検索プロセスとして推論を再構成し、グローバルおよび微粒なローカル記述子を組み合わせている。
そこで我々は,大規模言語モデル (LLM) の意味的推論能力を活用し,クラス固有の重み付けを割り当てる。
これらの構造化ディスクリプタをLLMガイダンスのセマンティックプリミティブと統合することにより、Skeleton-Cacheは、追加のトレーニングやトレーニングデータへのアクセスなしに、目に見えないアクションに動的に適応する。
NTU RGB+D 60/120 と PKU-MMD II の広範な実験により、Skeleton-Cache はゼロショットと一般化されたゼロショット設定の両方の下で、様々な SZAR バックボーンの性能を一貫して向上させることを示した。
コードはhttps://github.com/Alchemist0754/Skeleton-Cacheで公開されている。
関連論文リスト
- MS-CLR: Multi-Skeleton Contrastive Learning for Human Action Recognition [49.91188543847175]
Multi-Skeleton Contrastive Learning (MS-CLR)は、同じシーケンスから抽出された複数のスケルトン規則間でポーズ表現を整列するフレームワークである。
MS-CLRは、強いシングルスケルトンコントラスト学習ベースラインよりも一貫してパフォーマンスを向上する。
マルチスケルトンアンサンブルはパフォーマンスをさらに向上させ、両方のデータセットに新たな最先端結果を設定する。
論文 参考訳(メタデータ) (2025-08-20T17:58:03Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Exploring Self-supervised Skeleton-based Action Recognition in Occluded Environments [40.322770236718775]
我々は,オクルージョンを扱うためのシンプルで効果的な自己教師型学習フレームワークであるIosPSTLを提案する。
IosPSTLはクラスタに依存しないKNN命令とOccluded partial Spatio-Temporal Learning (OPSTL)戦略を組み合わせる。
OPSTLモジュールは適応空間マスキング (Adaptive Spatial Masking, ASM) を組み込んで、トレーニング中に無傷で高品質な骨格配列をうまく活用する。
論文 参考訳(メタデータ) (2023-09-21T12:51:11Z) - Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-18T09:00:25Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - Skeleton-based Action Recognition via Adaptive Cross-Form Learning [75.92422282666767]
スケルトンをベースとした行動認識は、骨格配列をアクションカテゴリに投影することを目的としており、配列は事前に検出された複数の点から導出される。
既存の方法は、相補的なキューのために多形骨格を活用することでGCNを改善する傾向にある。
本稿では,適応型クロスフォーム学習(ACFL)を提案する。
論文 参考訳(メタデータ) (2022-06-30T07:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。