論文の概要: AFE-CNN: 3D Skeleton-based Action Recognition with Action Feature
Enhancement
- arxiv url: http://arxiv.org/abs/2208.03444v1
- Date: Sat, 6 Aug 2022 04:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:14:38.341716
- Title: AFE-CNN: 3D Skeleton-based Action Recognition with Action Feature
Enhancement
- Title(参考訳): AFE-CNN:アクション特徴強調による3次元骨格に基づく行動認識
- Authors: Shannan Guan, Haiyan Lu, Linchao Zhu, Gengfa Fang
- Abstract要約: 既存の3Dスケルトンに基づくアクション認識アプローチは、手作りのアクション機能を画像フォーマットにエンコードし、CNNによってデコードすることで、印象的なパフォーマンスを実現する。
AFE-CNNは, 3Dスケルトンをベースとした行動の特徴を活かし, 挑戦的な行動に適応する試みである。
- 参考スコア(独自算出の注目度): 36.609189237732394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 3D skeleton-based action recognition approaches reach impressive
performance by encoding handcrafted action features to image format and
decoding by CNNs. However, such methods are limited in two ways: a) the
handcrafted action features are difficult to handle challenging actions, and b)
they generally require complex CNN models to improve action recognition
accuracy, which usually occur heavy computational burden. To overcome these
limitations, we introduce a novel AFE-CNN, which devotes to enhance the
features of 3D skeleton-based actions to adapt to challenging actions. We
propose feature enhance modules from key joint, bone vector, key frame and
temporal perspectives, thus the AFE-CNN is more robust to camera views and body
sizes variation, and significantly improve the recognition accuracy on
challenging actions. Moreover, our AFE-CNN adopts a light-weight CNN model to
decode images with action feature enhanced, which ensures a much lower
computational burden than the state-of-the-art methods. We evaluate the AFE-CNN
on three benchmark skeleton-based action datasets: NTU RGB+D, NTU RGB+D 120,
and UTKinect-Action3D, with extensive experimental results demonstrate our
outstanding performance of AFE-CNN.
- Abstract(参考訳): 既存の3Dスケルトンに基づくアクション認識アプローチは、手作りのアクション機能を画像フォーマットにエンコードし、CNNによってデコードすることで、印象的なパフォーマンスを実現する。
しかし、この方法には2つの制限がある。
a)手作りの動作特徴は、困難な行動に対処することが困難であり、
b) 一般に、行動認識精度を向上させるために複雑なCNNモデルが必要である。
これらの限界を克服するため,我々は,挑戦的行動に適応するために,3dスケルトンベースの動作の特徴を強化することに専心する新しい afe-cnn を導入する。
そこで,AFE-CNNはカメラの視界や身体サイズの変化に対してより堅牢であり,挑戦行動における認識精度を大幅に向上させる。
さらに,AFE-CNNでは,動作特徴が強化された画像を復号化するために,軽量CNNモデルを採用している。
NTU RGB+D, NTU RGB+D 120, UTKinect-Action3Dの3つのベンチマークスケルトンに基づく行動データセットを用いてAFE-CNNを評価する。
関連論文リスト
- FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - Deep Analysis of CNN-based Spatio-temporal Representations for Action
Recognition [26.006191751270393]
近年,映像行動認識のための2次元・3次元畳み込みニューラルネットワーク(CNN)に基づくアプローチが数多く出現している。
2D-CNNと3D-CNNの両方のアクションモデルのための統合フレームワークを開発する。
次に,300以上の行動認識モデルを含む大規模分析への取り組みを行う。
論文 参考訳(メタデータ) (2020-10-22T14:26:09Z) - Stronger, Faster and More Explainable: A Graph Convolutional Baseline
for Skeleton-based Action Recognition [22.90127409366107]
グラフ畳み込みネットワーク(GCN)に基づく効率的だが強力なベースラインを提案する。
畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されたResGCNモジュールがGCNで導入された。
PartAttブロックは、アクションシーケンス全体の上で最も重要な身体部分を発見するために提案される。
論文 参考訳(メタデータ) (2020-10-20T02:56:58Z) - DeepActsNet: Spatial and Motion features from Face, Hands, and Body
Combined with Convolutional and Graph Networks for Improved Action
Recognition [10.690794159983199]
本稿では,ビデオシーケンスからのアクションをエンコードする新しいデータ表現である"Deep Action Stamps (DeepActs)"を提案する。
深層学習に基づくアンサンブルモデルである"DeepActsNet"も提案する。
論文 参考訳(メタデータ) (2020-09-21T12:41:56Z) - Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文 参考訳(メタデータ) (2020-08-03T17:40:17Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。