Fugu-MT 論文翻訳(概要): An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition

論文の概要: An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition

arxiv url: http://arxiv.org/abs/2406.00639v1
Date: Sun, 2 Jun 2024 06:53:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 04:06:06.965119
Title: An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition
Title（参考訳）: ゼロショット骨格に基づく行動認識のための情報補償フレームワーク
Authors: Haojun Xu, Yan Gao, Jie Li, Xinbo Gao,
Abstract要約: ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
参考スコア（独自算出の注目度）: 49.45660055499103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot human skeleton-based action recognition aims to construct a model that can recognize actions outside the categories seen during training. Previous research has focused on aligning sequences' visual and semantic spatial distributions. However, these methods extract semantic features simply. They ignore that proper prompt design for rich and fine-grained action cues can provide robust representation space clustering. In order to alleviate the problem of insufficient information available for skeleton sequences, we design an information compensation learning framework from an information-theoretic perspective to improve zero-shot action recognition accuracy with a multi-granularity semantic interaction mechanism. Inspired by ensemble learning, we propose a multi-level alignment (MLA) approach to compensate information for action classes. MLA aligns multi-granularity embeddings with visual embedding through a multi-head scoring mechanism to distinguish semantically similar action names and visually similar actions. Furthermore, we introduce a new loss function sampling method to obtain a tight and robust representation. Finally, these multi-granularity semantic embeddings are synthesized to form a proper decision surface for classification. Significant action recognition performance is achieved when evaluated on the challenging NTU RGB+D, NTU RGB+D 120, and PKU-MMD benchmarks and validate that multi-granularity semantic features facilitate the differentiation of action clusters with similar visual features.
Abstract（参考訳）: ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。しかし、これらの手法は単純に意味的特徴を抽出する。彼らは、リッチできめ細かいアクションキューのための適切なプロンプト設計は、堅牢な表現空間クラスタリングを提供できることを無視する。骨格配列で利用可能な情報不足の問題を解決するため,情報理論の観点から情報補償学習フレームワークを設計し,多粒性意味的相互作用機構を用いてゼロショット動作認識精度を向上させる。アンサンブル学習に触発されて,アクションクラスの情報を補うためのマルチレベルアライメント(MLA)手法を提案する。 MLAは、意味的に類似したアクション名と視覚的に類似したアクションを区別するマルチヘッドスコアリング機構を通じて、多粒度埋め込みと視覚的埋め込みを一致させる。さらに,厳密でロバストな表現を得るために,新たな損失関数サンプリング手法を提案する。最後に、これらの多粒性セマンティック埋め込みを合成し、分類のための適切な決定面を形成する。 NTU RGB+D、NTU RGB+D 120、PKU-MMDベンチマークで評価し、複数の粒度意味的特徴が類似した視覚的特徴を持つアクションクラスタの分化を促進することを検証する。

関連論文リスト

Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文参考訳（メタデータ） (2025-06-05T06:39:43Z)
Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T10:17:57Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。 GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文参考訳（メタデータ） (2023-09-18T09:00:25Z)
Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文参考訳（メタデータ） (2023-08-22T13:55:57Z)
Zero-shot Skeleton-based Action Recognition via Mutual Information Estimation and Maximization [26.721082316870532]
ゼロショットスケルトンに基づくアクション認識は、観察されたカテゴリのデータに基づいてトレーニングした後、目に見えないカテゴリのアクションを認識することを目的としている。相互情報(MI)推定と推定によるゼロショットスケルトンに基づく新しい行動認識手法を提案する。
論文参考訳（メタデータ） (2023-08-07T23:41:55Z)
Part Aware Contrastive Learning for Self-Supervised Action Recognition [18.423841093299135]
本稿では,骨格表現学習のための注意に基づくコントラスト学習フレームワークであるSkeAttnCLRを提案する。提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。
論文参考訳（メタデータ） (2023-05-01T05:31:48Z)
Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。 SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文参考訳（メタデータ） (2023-03-03T02:07:40Z)
Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文参考訳（メタデータ） (2022-09-21T02:33:07Z)
Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文参考訳（メタデータ） (2022-05-03T17:39:27Z)
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文参考訳（メタデータ） (2021-08-15T02:21:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。