論文の概要: Cross-Block Fine-Grained Semantic Cascade for Skeleton-Based Sports Action Recognition
- arxiv url: http://arxiv.org/abs/2404.19383v1
- Date: Tue, 30 Apr 2024 09:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:44:46.034283
- Title: Cross-Block Fine-Grained Semantic Cascade for Skeleton-Based Sports Action Recognition
- Title(参考訳): 骨格に基づくスポーツ行動認識のためのクロスブロックファイングレードセマンティックカスケード
- Authors: Zhendong Liu, Haifeng Xia, Tong Guo, Libo Sun, Ming Shao, Siyu Xia,
- Abstract要約: 細粒度セマンティック (CFSC) モジュールを提案する。
CFSCは浅い視覚知識を高レベルブロックに統合し、ネットワークがアクションの詳細に集中できるようにする。
フェンシングスポーツのための新しいアクション認識データセットであるFD-7が収集され、一般公開される予定である。
- 参考スコア(独自算出の注目度): 22.986672432150776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action video recognition has recently attracted more attention in applications such as video security and sports posture correction. Popular solutions, including graph convolutional networks (GCNs) that model the human skeleton as a spatiotemporal graph, have proven very effective. GCNs-based methods with stacked blocks usually utilize top-layer semantics for classification/annotation purposes. Although the global features learned through the procedure are suitable for the general classification, they have difficulty capturing fine-grained action change across adjacent frames -- decisive factors in sports actions. In this paper, we propose a novel ``Cross-block Fine-grained Semantic Cascade (CFSC)'' module to overcome this challenge. In summary, the proposed CFSC progressively integrates shallow visual knowledge into high-level blocks to allow networks to focus on action details. In particular, the CFSC module utilizes the GCN feature maps produced at different levels, as well as aggregated features from proceeding levels to consolidate fine-grained features. In addition, a dedicated temporal convolution is applied at each level to learn short-term temporal features, which will be carried over from shallow to deep layers to maximize the leverage of low-level details. This cross-block feature aggregation methodology, capable of mitigating the loss of fine-grained information, has resulted in improved performance. Last, FD-7, a new action recognition dataset for fencing sports, was collected and will be made publicly available. Experimental results and empirical analysis on public benchmarks (FSD-10) and self-collected (FD-7) demonstrate the advantage of our CFSC module on learning discriminative patterns for action classification over others.
- Abstract(参考訳): 人間のアクションビデオ認識は、近年、ビデオセキュリティやスポーツ姿勢補正などのアプリケーションで注目を集めている。
人間の骨格を時空間グラフとしてモデル化するグラフ畳み込みネットワーク(GCN)を含む一般的な解は、非常に有効であることが証明されている。
スタックブロックを持つGCNsベースのメソッドは通常、分類/アノテーションの目的で上位層セマンティクスを使用する。
この手順を通じて得られたグローバルな特徴は、一般的な分類に適しているが、スポーツ行動における決定的な要因である、隣接するフレーム間でのきめ細かい行動変化を捉えるのが困難である。
本稿では,この課題を克服するために,<Cross-block Fine-fine Semantic Cascade (CFSC)' モジュールを提案する。
要約すると、提案するCFSCは、浅い視覚知識をハイレベルなブロックに徐々に統合し、ネットワークがアクションの詳細に集中できるようにする。
特に、CFSCモジュールは、異なるレベルで生成されたGCN特徴マップと、進行レベルから集約された特徴を利用して、きめ細かい特徴を統合する。
さらに、各レベルに専用の時間的畳み込みを適用して、浅い層から深い層へと受け継がれ、低レベルの詳細を最大限に活用する短期的特徴を学習する。
このクロスブロック機能集約手法は、きめ細かい情報の損失を軽減することができ、性能が向上した。
最後に、フェンシングスポーツのための新しいアクション認識データセットであるFD-7が収集され、一般公開される予定である。
公共ベンチマーク(FSD-10)と自己コンパイル(FD-7)に関する実験結果と実証分析により,CFSCモジュールの他者に対する行動分類における識別パターンの学習における利点が示された。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - AttenScribble: Attentive Similarity Learning for Scribble-Supervised
Medical Image Segmentation [5.8447004333496855]
本稿では,単純かつ効果的なスクリブル教師あり学習フレームワークを提案する。
我々は、任意の完全畳み込みネットワーク(FCN)バックボーンの内部特徴層の上に、接続可能な空間自己アテンションモジュールを作成する。
この注意深い類似性は、セグメンテーション予測と視覚親和性の一貫性を課する新たな正規化損失をもたらす。
論文 参考訳(メタデータ) (2023-12-11T18:42:18Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。