論文の概要: Attention-Driven Body Pose Encoding for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2009.14326v2
- Date: Fri, 2 Oct 2020 17:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:11:18.280751
- Title: Attention-Driven Body Pose Encoding for Human Activity Recognition
- Title(参考訳): 人間活動認識のための注意駆動型ボディポーズ符号化
- Authors: B Debnath, M O'brien, S Kumar, A Behera
- Abstract要約: 本稿では,人間の行動認識のための新しいアテンションベースボディポーズコーディングを提案する。
濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article proposes a novel attention-based body pose encoding for human
activity recognition that presents a enriched representation of body-pose that
is learned. The enriched data complements the 3D body joint position data and
improves model performance. In this paper, we propose a novel approach that
learns enhanced feature representations from a given sequence of 3D body
joints. To achieve this encoding, the approach exploits 1) a spatial stream
which encodes the spatial relationship between various body joints at each time
point to learn spatial structure involving the spatial distribution of
different body joints 2) a temporal stream that learns the temporal variation
of individual body joints over the entire sequence duration to present a
temporally enhanced representation. Afterwards, these two pose streams are
fused with a multi-head attention mechanism. % adapted from neural machine
translation. We also capture the contextual information from the RGB video
stream using a Inception-ResNet-V2 model combined with a multi-head attention
and a bidirectional Long Short-Term Memory (LSTM) network. %Moreover, we whose
performance is enhanced through the multi-head attention mechanism. Finally,
the RGB video stream is combined with the fused body pose stream to give a
novel end-to-end deep model for effective human activity recognition.
- Abstract(参考訳): 本稿では,学習対象の豊かな表現を提示する,人間の行動認識のための新しい注目に基づくボディポーズ符号化を提案する。
濃縮されたデータは、3次元体の関節位置データを補完し、モデル性能を向上させる。
本稿では, 3次元関節の所定の配列から特徴表現の強化を学習する新しい手法を提案する。
このエンコーディングを実現するために、アプローチは利用します
1 各時点における各体節間の空間的関係を符号化し、異なる体節の空間的分布を含む空間的構造を学習する空間的流れ
2) 時間的に拡張された表現を提示するために, 個々の関節の時間的変動をシーケンス全体を通して学習する時間的流れ。
その後、これら2つのポーズストリームをマルチヘッドアテンション機構で融合する。
%であった。
Inception-ResNet-V2モデルとマルチヘッドアテンションと双方向Long Short-Term Memory(LSTM)ネットワークを組み合わせることで,RGBビデオストリームからコンテキスト情報をキャプチャする。
%Moreoverでは,マルチヘッドアテンション機構により性能が向上した。
最後に、RGBビデオストリームを融合したボディポーズストリームと組み合わせることで、人間の活動認識を効果的にするための新しいエンドツーエンドのディープモデルを提供する。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。
最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。
関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文 参考訳(メタデータ) (2021-05-04T15:23:29Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。