Fugu-MT 論文翻訳(概要): Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition

論文の概要: Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition

arxiv url: http://arxiv.org/abs/2404.07487v2
Date: Mon, 15 Apr 2024 02:25:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 19:21:41.851722
Title: Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition
Title（参考訳）: ゼロショットスケルトン動作認識のためのデュアルプロンプトによる細粒側情報案内
Authors: Yang Chen, Jingcai Guo, Tian He, Ling Wang,
Abstract要約: そこで本研究では,スケルトンに基づくゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習による新しい手法を提案する。本手法は,データセット上でのZSLおよびGZSL設定における最先端性能を実現する。
参考スコア（独自算出の注目度）: 18.012159340628557
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Skeleton-based zero-shot action recognition aims to recognize unknown human actions based on the learned priors of the known skeleton-based actions and a semantic descriptor space shared by both known and unknown categories. However, previous works focus on establishing the bridges between the known skeleton representation space and semantic descriptions space at the coarse-grained level for recognizing unknown action categories, ignoring the fine-grained alignment of these two spaces, resulting in suboptimal performance in distinguishing high-similarity action categories. To address these challenges, we propose a novel method via Side information and dual-prompts learning for skeleton-based zero-shot action recognition (STAR) at the fine-grained level. Specifically, 1) we decompose the skeleton into several parts based on its topology structure and introduce the side information concerning multi-part descriptions of human body movements for alignment between the skeleton and the semantic space at the fine-grained level; 2) we design the visual-attribute and semantic-part prompts to improve the intra-class compactness within the skeleton space and inter-class separability within the semantic space, respectively, to distinguish the high-similarity actions. Extensive experiments show that our method achieves state-of-the-art performance in ZSL and GZSL settings on NTU RGB+D, NTU RGB+D 120, and PKU-MMD datasets.
Abstract（参考訳）: 骨格に基づくゼロショット行動認識は、既知の骨格に基づく行動と、既知のカテゴリと未知のカテゴリの両方で共有される意味記述子空間の学習先に基づいて、未知の人間の行動を認識することを目的としている。しかし、従来の研究は、既知の骨格表現空間と、未知のアクションカテゴリを認識するための粗粒度レベルでの意味記述空間のブリッジを確立することに重点を置いており、これら2つの空間のきめ細かいアライメントを無視し、その結果、高相似アクションカテゴリを区別する際の準最適性能をもたらす。これらの課題に対処するために,スケルトンをベースとしたゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習を用いた新しい手法を提案する。具体的には 1) 骨格をそのトポロジー構造に基づいていくつかの部分に分解し, 微粒なレベルでの骨格と意味空間のアライメントのための人体運動の多部記述の側面情報を導入する。 2) 視覚的属性と意味的部分のプロンプトを設計し, 骨格空間内におけるクラス内コンパクト性, 意味空間内におけるクラス間分離性を改善し, 高い相似性動作を識別する。 NTU RGB+D, NTU RGB+D 120, PKU-MMDデータセットのZSLおよびGZSL設定における最先端性能が得られた。

関連論文リスト

Spatio-temporal Decoupled Knowledge Compensator for Few-Shot Action Recognition [92.22104713961431]
Few-Shot Action Recognition (FSAR)は、新しいアクションカテゴリをラベル付きビデオで認識する必要がある課題である。近年の研究では、識別的視覚的特徴の学習を導くために、意味的に粗いカテゴリ名を補助的な文脈として適用している。本稿では,空間的知識を疎結合に利用したFSARの革新的脱包フレームワークであるDiSTを提案する。
論文参考訳（メタデータ） (2026-02-20T07:52:57Z)
Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文参考訳（メタデータ） (2024-11-18T05:16:11Z)
Zero-Shot Skeleton-based Action Recognition with Dual Visual-Text Alignment [11.72557768532557]
ゼロショットアクション認識の鍵は、視覚的特徴をアクションカテゴリを表す意味ベクトルと整合させることにある。提案手法は、一般的なゼロショットスケルトンに基づく動作認識ベンチマークにおいて、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-22T06:44:58Z)
Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文参考訳（メタデータ） (2024-06-19T08:22:32Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文参考訳（メタデータ） (2024-05-31T03:40:15Z)
Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文参考訳（メタデータ） (2024-05-06T16:31:19Z)
Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。 STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文参考訳（メタデータ） (2023-12-23T02:54:41Z)
Zero-shot Skeleton-based Action Recognition via Mutual Information Estimation and Maximization [26.721082316870532]
ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
論文参考訳（メタデータ） (2023-08-07T23:41:55Z)
Part Aware Contrastive Learning for Self-Supervised Action Recognition [18.423841093299135]
本稿では,骨格表現学習のための注意に基づくコントラスト学習フレームワークであるSkeAttnCLRを提案する。提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。
論文参考訳（メタデータ） (2023-05-01T05:31:48Z)
Part-aware Prototypical Graph Network for One-shot Skeleton-based Action Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文参考訳（メタデータ） (2022-08-19T04:54:56Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。