論文の概要: Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition
- arxiv url: http://arxiv.org/abs/2208.09150v1
- Date: Fri, 19 Aug 2022 04:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:41:57.541269
- Title: Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition
- Title(参考訳): ワンショットスケルトンに基づく行動認識のための部分認識型グラフネットワーク
- Authors: Tailin Chen, Desen Zhou, Jian Wang, Shidong Wang, Qian He, Chuanyang
Hu, Errui Ding, Yu Guan, Xuming He
- Abstract要約: ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
- 参考スコア(独自算出の注目度): 57.86960990337986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of one-shot skeleton-based action
recognition, which poses unique challenges in learning transferable
representation from base classes to novel classes, particularly for
fine-grained actions. Existing meta-learning frameworks typically rely on the
body-level representations in spatial dimension, which limits the
generalisation to capture subtle visual differences in the fine-grained label
space. To overcome the above limitation, we propose a part-aware prototypical
representation for one-shot skeleton-based action recognition. Our method
captures skeleton motion patterns at two distinctive spatial levels, one for
global contexts among all body joints, referred to as body level, and the other
attends to local spatial regions of body parts, referred to as the part level.
We also devise a class-agnostic attention mechanism to highlight important
parts for each action class. Specifically, we develop a part-aware prototypical
graph network consisting of three modules: a cascaded embedding module for our
dual-level modelling, an attention-based part fusion module to fuse parts and
generate part-aware prototypes, and a matching module to perform classification
with the part-aware representations. We demonstrate the effectiveness of our
method on two public skeleton-based action recognition datasets: NTU RGB+D 120
and NW-UCLA.
- Abstract(参考訳): 本稿では,単発スケルトンに基づく行動認識の問題について検討し,ベースクラスから新しいクラス,特にきめ細かいアクションを学習する上で,ユニークな課題を提起する。
既存のメタラーニングフレームワークは通常、空間次元のボディレベル表現に依存しており、一般化は細粒度ラベル空間の微妙な視覚差を捉えるために制限されている。
上記の制限を克服するため,一発骨格に基づく行動認識のための部分認識型表現を提案する。
本手法では, 骨の運動パターンを2つの特徴的空間レベル, ひとつは全身関節のグローバルな文脈, もうひとつは身体部位の局所的な空間領域, もう一つは部分レベルである。
また、アクションクラスごとに重要な部分を強調するために、クラスに依存しない注意機構を考案する。
具体的には,2レベルモデリングのためのカスケード埋め込みモジュール,部品を融合して部品認識プロトタイプを生成する注意型部分融合モジュール,部品認識表現を分類するマッチングモジュールの3つのモジュールからなる,部品認識型グラフネットワークを開発した。
本研究では,NTU RGB+D 120とNW-UCLAの2つの行動認識データセットに対して,本手法の有効性を示す。
関連論文リスト
- Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition [18.012159340628557]
そこで本研究では,スケルトンに基づくゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習による新しい手法を提案する。
本手法は,データセット上でのZSLおよびGZSL設定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-11T05:51:06Z) - Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-18T09:00:25Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。