論文の概要: Frequency-Semantic Enhanced Variational Autoencoder for Zero-Shot Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2506.22179v1
- Date: Fri, 27 Jun 2025 12:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.199512
- Title: Frequency-Semantic Enhanced Variational Autoencoder for Zero-Shot Skeleton-based Action Recognition
- Title(参考訳): ゼロショットスケルトンに基づく行動認識のための周波数セマンティック拡張変分オートエンコーダ
- Authors: Wenhan Wu, Zhishuai Guo, Chen Chen, Hongfei Xue, Aidong Lu,
- Abstract要約: ゼロショットスケルトンに基づくアクション認識は、トレーニング中に遭遇するカテゴリを超えてアクションを特定することを目的としている。
従来のアプローチは主に視覚的表現と意味的表現の整合に重点を置いてきた。
本稿では,周波数分解を用いたスケルトン意味表現学習のための周波数意味拡張変分オートエンコーダ (FS-VAE) を提案する。
- 参考スコア(独自算出の注目度): 11.11236920942621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot skeleton-based action recognition aims to develop models capable of identifying actions beyond the categories encountered during training. Previous approaches have primarily focused on aligning visual and semantic representations but often overlooked the importance of fine-grained action patterns in the semantic space (e.g., the hand movements in drinking water and brushing teeth). To address these limitations, we propose a Frequency-Semantic Enhanced Variational Autoencoder (FS-VAE) to explore the skeleton semantic representation learning with frequency decomposition. FS-VAE consists of three key components: 1) a frequency-based enhancement module with high- and low-frequency adjustments to enrich the skeletal semantics learning and improve the robustness of zero-shot action recognition; 2) a semantic-based action description with multilevel alignment to capture both local details and global correspondence, effectively bridging the semantic gap and compensating for the inherent loss of information in skeleton sequences; 3) a calibrated cross-alignment loss that enables valid skeleton-text pairs to counterbalance ambiguous ones, mitigating discrepancies and ambiguities in skeleton and text features, thereby ensuring robust alignment. Evaluations on the benchmarks demonstrate the effectiveness of our approach, validating that frequency-enhanced semantic features enable robust differentiation of visually and semantically similar action clusters, improving zero-shot action recognition.
- Abstract(参考訳): ゼロショットスケルトンに基づくアクション認識は、トレーニング中に遭遇するカテゴリを超えたアクションを識別できるモデルを開発することを目的としている。
従来のアプローチは主に視覚的・意味的な表現の整合に焦点を合わせてきたが、しばしば意味空間におけるきめ細かい行動パターンの重要性(例えば、飲料水や歯を磨く際の手の動き)を見落としていた。
これらの制約に対処するため,周波数分解を用いた骨格意味表現学習のためのFS-VAE ( Frequency-Semantic Enhanced Variational Autoencoder) を提案する。
FS-VAEは3つのキーコンポーネントから構成される。
1) 骨格意味学学習を充実させ、ゼロショット動作認識の堅牢性を向上させるために、高頻度及び低周波調整を施した周波数ベース強化モジュール
2 局所的詳細及び大域的対応の両方を捉え、意味的ギャップを効果的に埋め、及び、骨格配列における情報固有の喪失を補うための多段階的アライメントを伴う意味的行動記述。
3) 有効なスケルトンとテキストのペアがあいまいなものとのバランスを保ち、スケルトンとテキストの特徴の相違やあいまいさを緩和し、ロバストなアライメントを確保することができる校正型クロスアライメント損失。
提案手法の有効性を検証し,周波数強調による意味的特徴が視覚的および意味論的に類似した行動クラスターの堅牢な識別を可能にし,ゼロショット動作認識を向上することを示す。
関連論文リスト
- FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。
本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。
FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-29T07:18:28Z) - TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition [25.341177384559174]
ゼロショットスケルトンに基づくアクション認識では、見えないアクションを正確に予測するためには、スケルトン特徴とアクションラベルのテキスト特徴との整合が不可欠である。
本フレームワークは,スケルトン・テキストマッチング(TDSM)方式のトリプルト拡散として設計されており,スケルトンの特徴を逆拡散によるテキストプロンプトと整合させる。
識別力を高めるために,TDSMが不正確な3重項拡散(TD)損失を生じさせ,不正確な3重項拡散(TD)を推し進める。
論文 参考訳(メタデータ) (2024-11-16T08:55:18Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-18T09:00:25Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Real-time Human Action Recognition Using Locally Aggregated
Kinematic-Guided Skeletonlet and Supervised Hashing-by-Analysis Model [30.435850177921086]
3次元動作認識には, 非常に複雑な調音, 大量のノイズ, 実装効率の低下という3つの問題がある。
本研究では,局所的に集約されたキネマティック誘導骨格 (LAKS) と教師付きハッシュ・バイ・アナリシス (SHA) モデルを組み合わせたリアルタイム3次元動作認識フレームワークを提案する。
MSRAction3D, UTKinectAction3DおよびFlorence3DActionデータセットの実験結果から, 提案手法は認識精度と実装効率の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-05-24T14:46:40Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。