論文の概要: Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition
- arxiv url: http://arxiv.org/abs/2404.07487v2
- Date: Mon, 15 Apr 2024 02:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:21:41.851722
- Title: Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition
- Title(参考訳): ゼロショットスケルトン動作認識のためのデュアルプロンプトによる細粒側情報案内
- Authors: Yang Chen, Jingcai Guo, Tian He, Ling Wang,
- Abstract要約: そこで本研究では,スケルトンに基づくゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習による新しい手法を提案する。
本手法は,データセット上でのZSLおよびGZSL設定における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 18.012159340628557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based zero-shot action recognition aims to recognize unknown human actions based on the learned priors of the known skeleton-based actions and a semantic descriptor space shared by both known and unknown categories. However, previous works focus on establishing the bridges between the known skeleton representation space and semantic descriptions space at the coarse-grained level for recognizing unknown action categories, ignoring the fine-grained alignment of these two spaces, resulting in suboptimal performance in distinguishing high-similarity action categories. To address these challenges, we propose a novel method via Side information and dual-prompts learning for skeleton-based zero-shot action recognition (STAR) at the fine-grained level. Specifically, 1) we decompose the skeleton into several parts based on its topology structure and introduce the side information concerning multi-part descriptions of human body movements for alignment between the skeleton and the semantic space at the fine-grained level; 2) we design the visual-attribute and semantic-part prompts to improve the intra-class compactness within the skeleton space and inter-class separability within the semantic space, respectively, to distinguish the high-similarity actions. Extensive experiments show that our method achieves state-of-the-art performance in ZSL and GZSL settings on NTU RGB+D, NTU RGB+D 120, and PKU-MMD datasets.
- Abstract(参考訳): 骨格に基づくゼロショット行動認識は、既知の骨格に基づく行動と、既知のカテゴリと未知のカテゴリの両方で共有される意味記述子空間の学習先に基づいて、未知の人間の行動を認識することを目的としている。
しかし、従来の研究は、既知の骨格表現空間と、未知のアクションカテゴリを認識するための粗粒度レベルでの意味記述空間のブリッジを確立することに重点を置いており、これら2つの空間のきめ細かいアライメントを無視し、その結果、高相似アクションカテゴリを区別する際の準最適性能をもたらす。
これらの課題に対処するために,スケルトンをベースとしたゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習を用いた新しい手法を提案する。
具体的には
1) 骨格をそのトポロジー構造に基づいていくつかの部分に分解し, 微粒なレベルでの骨格と意味空間のアライメントのための人体運動の多部記述の側面情報を導入する。
2) 視覚的属性と意味的部分のプロンプトを設計し, 骨格空間内におけるクラス内コンパクト性, 意味空間内におけるクラス間分離性を改善し, 高い相似性動作を識別する。
NTU RGB+D, NTU RGB+D 120, PKU-MMDデータセットのZSLおよびGZSL設定における最先端性能が得られた。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Zero-shot Skeleton-based Action Recognition via Mutual Information
Estimation and Maximization [26.721082316870532]
ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。
相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T23:41:55Z) - Part Aware Contrastive Learning for Self-Supervised Action Recognition [18.423841093299135]
本稿では,骨格表現学習のための注意に基づくコントラスト学習フレームワークであるSkeAttnCLRを提案する。
提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2023-05-01T05:31:48Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - JOLO-GCN: Mining Joint-Centered Light-Weight Information for
Skeleton-Based Action Recognition [47.47099206295254]
本稿では,2ストリームグラフ畳み込みネットワークにおいて,人間のポーズスケルトンと共同中心の軽量情報を活用するための新しいフレームワークを提案する。
純粋なスケルトンベースのベースラインと比較して、このハイブリッドスキームは、計算とメモリのオーバーヘッドを低く保ちながら、性能を効果的に向上させる。
論文 参考訳(メタデータ) (2020-11-16T08:39:22Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。