論文の概要: Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal
Heatmaps
- arxiv url: http://arxiv.org/abs/2011.13399v1
- Date: Thu, 26 Nov 2020 17:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:40:02.958671
- Title: Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal
Heatmaps
- Title(参考訳): 奥行き認識:時間熱マップによるポーズ・モーションエンコーディング
- Authors: Mattia Segu, Federico Pirovano, Gianmario Fumagalli, Amedeo Fabris
- Abstract要約: 動作分類のための統一表現において、ポーズ情報と動き情報を符号化する深度認識記述子を提案する。
本手法の鍵となる要素は,人体の意味的キーポイントの3次元移動を符号化した新しいビデオ記述子,DA-PoTionである。
- 参考スコア(独自算出の注目度): 2.2079886535603084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most state-of-the-art methods for action recognition rely only on 2D spatial
features encoding appearance, motion or pose. However, 2D data lacks the depth
information, which is crucial for recognizing fine-grained actions. In this
paper, we propose a depth-aware volumetric descriptor that encodes pose and
motion information in a unified representation for action classification
in-the-wild. Our framework is robust to many challenges inherent to action
recognition, e.g. variation in viewpoint, scene, clothing and body shape. The
key component of our method is the Depth-Aware Pose Motion representation
(DA-PoTion), a new video descriptor that encodes the 3D movement of semantic
keypoints of the human body. Given a video, we produce human joint heatmaps for
each frame using a state-of-the-art 3D human pose regressor and we give each of
them a unique color code according to the relative time in the clip. Then, we
aggregate such 3D time-encoded heatmaps for all human joints to obtain a
fixed-size descriptor (DA-PoTion), which is suitable for classifying actions
using a shallow 3D convolutional neural network (CNN). The DA-PoTion alone
defines a new state-of-the-art on the Penn Action Dataset. Moreover, we
leverage the intrinsic complementarity of our pose motion descriptor with
appearance based approaches by combining it with Inflated 3D ConvNet (I3D) to
define a new state-of-the-art on the JHMDB Dataset.
- Abstract(参考訳): アクション認識のための最先端のほとんどの方法は、外観、動き、ポーズを符号化する2次元空間的特徴にのみ依存する。
しかし、2Dデータには奥行き情報がないため、きめ細かい動きを認識するのに不可欠である。
本稿では,行動分類のための統一表現として,ポーズと動作情報をエンコードする奥行き認識型ボリュームディスクリプタを提案する。
我々の枠組みは、例えば視点、シーン、衣服、体形の変化など、行動認識に固有の多くの課題に対して堅牢である。
この手法の重要なコンポーネントは、人体の意味的キーポイントの3d動きをエンコードする新しいビデオディスクリプタであるda-potion(deep-aware pose motion representation)である。
ビデオが与えられたら、最先端の3dポーズレグレッサーを使って各フレームの人間の関節熱マップを作成し、クリップ内の相対時間に応じてそれぞれにユニークな色コードを与えます。
そして,これらの3次元時間エンコードされたヒートマップを集約して,浅い3次元畳み込みニューラルネットワーク(CNN)を用いた動作の分類に適した固定サイズ記述子(DA-PoTion)を得る。
DA-PoTionだけで、Penn Action Datasetの新たな最先端が定義されている。
さらに,jhmdbデータセット上での新たな最先端を定義するために,膨らんだ3d convnet (i3d) と組み合わせることで,ポーズ動作記述子の包括的相補性を活用する。
関連論文リスト
- 2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation? [5.408549711581793]
本研究では,2次元もしくは3次元の関節座標を訓練データとして用いることが,音声から身近な深層生成モデルの性能に及ぼす影響について検討した。
生成した2Dポーズシーケンスを3Dに変換するためのリフトモデルを用いて,2Dで生成したジェスチャと3Dで生成したジェスチャを直接3Dスタックで生成し,次に3Dに変換する方法を評価する。
論文 参考訳(メタデータ) (2024-09-16T15:06:12Z) - DGD: Dynamic 3D Gaussians Distillation [14.7298711927857]
単一の単眼映像を入力として,動的3次元セマンティックラディアンス場を学習する作業に取り組む。
我々の学習したセマンティック・ラディアンス・フィールドは、動的3Dシーンの色と幾何学的性質だけでなく、ポイントごとのセマンティクスをキャプチャする。
動的3Dシーンの外観と意味を統一した3D表現であるDGDを提案する。
論文 参考訳(メタデータ) (2024-05-29T17:52:22Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。