論文の概要: DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2512.11941v1
- Date: Fri, 12 Dec 2025 10:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.042507
- Title: DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition
- Title(参考訳): DynaPURLS: 骨格に基づくゼロショット動作認識のための部分認識表現の動的再構成
- Authors: Jingmin Zhu, Anqi Zhu, James Bailey, Jun Liu, Hossein Rahmani, Mohammed Bennamoun, Farid Boussaid, Qiuhong Ke,
- Abstract要約: textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 51.80782323686666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot skeleton-based action recognition (ZS-SAR) is fundamentally constrained by prevailing approaches that rely on aligning skeleton features with static, class-level semantics. This coarse-grained alignment fails to bridge the domain shift between seen and unseen classes, thereby impeding the effective transfer of fine-grained visual knowledge. To address these limitations, we introduce \textbf{DynaPURLS}, a unified framework that establishes robust, multi-scale visual-semantic correspondences and dynamically refines them at inference time to enhance generalization. Our framework leverages a large language model to generate hierarchical textual descriptions that encompass both global movements and local body-part dynamics. Concurrently, an adaptive partitioning module produces fine-grained visual representations by semantically grouping skeleton joints. To fortify this fine-grained alignment against the train-test domain shift, DynaPURLS incorporates a dynamic refinement module. During inference, this module adapts textual features to the incoming visual stream via a lightweight learnable projection. This refinement process is stabilized by a confidence-aware, class-balanced memory bank, which mitigates error propagation from noisy pseudo-labels. Extensive experiments on three large-scale benchmark datasets, including NTU RGB+D 60/120 and PKU-MMD, demonstrate that DynaPURLS significantly outperforms prior art, setting new state-of-the-art records. The source code is made publicly available at https://github.com/Alchemist0754/DynaPURLS
- Abstract(参考訳): ゼロショットスケルトンに基づくアクション認識(ZS-SAR)は、スケルトン機能と静的なクラスレベルのセマンティクスとの整合に依存する一般的なアプローチによって、基本的に制限されている。
この粗い粒度のアライメントは、目に見えないクラスと見えないクラスの間のドメインシフトをブリッジするのに失敗し、それによって、きめ細かい視覚的知識の効果的な伝達を妨げる。
これらの制約に対処するため、我々は、堅牢でマルチスケールの視覚的意味的対応を確立し、それらを推論時に動的に洗練し、一般化を強化する統一的なフレームワークである \textbf{DynaPURLS} を導入する。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
同時に、適応的な分割モジュールは、スケルトン関節を意味的にグループ化することによって、きめ細かい視覚表現を生成する。
トレインテストのドメインシフトに対して、このきめ細かいアライメントを強化するために、DynaPURLSには動的リファインメントモジュールが組み込まれている。
推論中、このモジュールは、軽量の学習可能なプロジェクションを通じて、入力されるビジュアルストリームにテキスト機能を適用する。
この精製プロセスは、ノイズのある擬似ラベルからのエラー伝播を緩和する信頼度対応のクラスバランスメモリバンクによって安定化される。
NTU RGB+D 60/120 と PKU-MMD を含む3つの大規模ベンチマークデータセットに対する大規模な実験は、DynaPURLSが先行技術を大きく上回っており、新たな最先端記録が設定されていることを示している。
ソースコードはhttps://github.com/Alchemist0754/DynaPURLSで公開されている。
関連論文リスト
- LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T02:29:51Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Semantic Lens: Instance-Centric Semantic Alignment for Video
Super-Resolution [36.48329560039897]
フレーム間アライメントはビデオ超解像(VSR)の重要な手がかりである
本稿では,セマンティックレンズ(Semantic Lens)という,VSRのための新しいパラダイムを提案する。
ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
論文 参考訳(メタデータ) (2023-12-13T01:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。