論文の概要: Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition
- arxiv url: http://arxiv.org/abs/2309.09592v1
- Date: Mon, 18 Sep 2023 09:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:21:54.460270
- Title: Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition
- Title(参考訳): 一般化ゼロショットスケルトンに基づくアクション認識のためのマルチセマンティクス融合モデル
- Authors: Ming-Zhe Li, Zhen Jia, Zhang Zhang, Zhanyu Ma, and Liang Wang
- Abstract要約: 一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
- 参考スコア(独自算出の注目度): 32.291333054680855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized zero-shot skeleton-based action recognition (GZSSAR) is a new
challenging problem in computer vision community, which requires models to
recognize actions without any training samples. Previous studies only utilize
the action labels of verb phrases as the semantic prototypes for learning the
mapping from skeleton-based actions to a shared semantic space. However, the
limited semantic information of action labels restricts the generalization
ability of skeleton features for recognizing unseen actions. In order to solve
this dilemma, we propose a multi-semantic fusion (MSF) model for improving the
performance of GZSSAR, where two kinds of class-level textual descriptions
(i.e., action descriptions and motion descriptions), are collected as auxiliary
semantic information to enhance the learning efficacy of generalizable skeleton
features. Specially, a pre-trained language encoder takes the action
descriptions, motion descriptions and original class labels as inputs to obtain
rich semantic features for each action class, while a skeleton encoder is
implemented to extract skeleton features. Then, a variational autoencoder (VAE)
based generative module is performed to learn a cross-modal alignment between
skeleton and semantic features. Finally, a classification module is built to
recognize the action categories of input samples, where a seen-unseen
classification gate is adopted to predict whether the sample comes from seen
action classes or not in GZSSAR. The superior performance in comparisons with
previous models validates the effectiveness of the proposed MSF model on
GZSSAR.
- Abstract(参考訳): 一般化ゼロショットスケルトンに基づくアクション認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題であり、モデルがトレーニングサンプルなしでアクションを認識する必要がある。
これまでの研究では、動詞句のアクションラベルのみを意味的プロトタイプとして使用して、スケルトンベースのアクションから共有意味空間へのマッピングを学ぶ。
しかし、アクションラベルの限定された意味情報は、未認識のアクションを認識するための骨格特徴の一般化能力を制限する。
このジレンマを解決するために,2種類のクラスレベルのテキスト記述(動作記述と動作記述)を補助的な意味情報として収集し,汎用的な骨格特徴の学習効果を高めるgzssarの性能を向上させるマルチセマンティクス融合(msf)モデルを提案する。
特に、事前訓練された言語エンコーダは、アクション記述、モーション記述、および元のクラスラベルを入力として、各アクションクラスのリッチなセマンティック特徴を取得し、スケルトンエンコーダは骨格の特徴を抽出するために実装される。
次に、変分オートエンコーダ(VAE)に基づく生成モジュールを実行し、スケルトンと意味的特徴の相互アライメントを学習する。
最後に、入力サンプルの動作カテゴリを認識するために分類モジュールを構築し、GZSSARでサンプルが動作クラスから来ているかどうかを予測するために、見知らぬ分類ゲートを採用する。
従来のモデルと比較して優れた性能は、gzssar上で提案されたmsfモデルの有効性を検証している。
関連論文リスト
- Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Generative Action Description Prompts for Skeleton-based Action
Recognition [15.38417530693649]
本稿では,骨格に基づく行動認識のためのGAP(Generative Action-Description Prompts)アプローチを提案する。
本研究では,行動の身体部分の動きのテキスト記述を自動的に生成する知識エンジンとして,事前学習された大規模言語モデルを用いる。
提案手法は,推定コストを伴わずに,様々なベースラインモデルに対して顕著な改善を実現する。
論文 参考訳(メタデータ) (2022-08-10T12:55:56Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。