論文の概要: SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder
and Transformer Network
- arxiv url: http://arxiv.org/abs/2306.17574v1
- Date: Fri, 30 Jun 2023 11:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:47:40.639172
- Title: SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder
and Transformer Network
- Title(参考訳): SpATr: スパイラルオートエンコーダとトランスフォーマーネットワークに基づくMoCap 3Dヒューマンアクション認識
- Authors: Hamza Bouzid and Lahoucine Ballihi
- Abstract要約: 本稿では,Spiral Auto-Encoder と Transformer Network をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。
スパイラル畳み込みに基づく自動エンコーダを構築することにより、競合認識率と高いメモリ効率を示す。
- 参考スコア(独自算出の注目度): 1.279257604152629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in technology have expanded the possibilities of human
action recognition by leveraging 3D data, which offers a richer representation
of actions through the inclusion of depth information, enabling more accurate
analysis of spatial and temporal characteristics. However, 3D human action
recognition is a challenging task due to the irregularity and Disarrangement of
the data points in action sequences. In this context, we present our novel
model for human action recognition from fixed topology mesh sequences based on
Spiral Auto-encoder and Transformer Network, namely SpATr. The proposed method
first disentangles space and time in the mesh sequences. Then, an auto-encoder
is utilized to extract spatial geometrical features, and tiny transformer is
used to capture the temporal evolution of the sequence. Previous methods either
use 2D depth images, sample skeletons points or they require a huge amount of
memory leading to the ability to process short sequences only. In this work, we
show competitive recognition rate and high memory efficiency by building our
auto-encoder based on spiral convolutions, which are light weight convolution
directly applied to mesh data with fixed topologies, and by modeling temporal
evolution using a attention, that can handle large sequences. The proposed
method is evaluated on on two 3D human action datasets: MoVi and BMLrub from
the Archive of Motion Capture As Surface Shapes (AMASS). The results analysis
shows the effectiveness of our method in 3D human action recognition while
maintaining high memory efficiency. The code will soon be made publicly
available.
- Abstract(参考訳): 近年の技術の進歩は、深度情報を含めることでよりリッチなアクション表現を提供する3Dデータを活用することで、人間の行動認識の可能性を広げ、空間的および時間的特性をより正確に分析することを可能にする。
しかし,3次元行動認識は,行動系列におけるデータ点の不規則性や乱れのため,困難な課題である。
本稿では,Spiral Auto-Encoder と Transformer Network,すなわち SpATr をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。
提案手法はまず,メッシュ列内の空間と時間をアンタングルする。
次に、オートエンコーダを用いて空間幾何学的特徴を抽出し、小さなトランスフォーマーを用いてシーケンスの時間的進化をキャプチャする。
従来の手法では、2d深度のイメージやサンプルのスケルトンポイントを使うか、あるいは大量のメモリを必要とするため、短いシーケンスのみを処理できる。
本研究では,メッシュデータに直接固定トポロジを適用した軽量畳み込みであるスパイラル畳み込みに基づく自動エンコーダの構築と,大きなシーケンスを処理可能な注意を用いた時間的進化のモデル化により,競合認識率と高いメモリ効率を示す。
提案手法は,moviとbmlrubの2つの3次元ヒューマンアクションデータセット上で,表面形状 (amass) として運動キャプチャーアーカイブを用いて評価した。
その結果,記憶効率を維持しつつ3次元行動認識における提案手法の有効性が示された。
コードは間もなく公開される予定だ。
関連論文リスト
- Dynamic 3D Point Cloud Sequences as 2D Videos [87.39667425671821]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Learning by Aligning 2D Skeleton Sequences in Time [8.63908442635957]
本稿では,人間の行動理解作業の微粒化に有用な,自己監督型時間的ビデオアライメントフレームワークを提案する。
3Dスケルトン座標の配列を入力として直接取り込む最先端の手法であるCASAとは対照的に、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。
論文 参考訳(メタデータ) (2023-05-31T01:16:08Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Action-Conditioned 3D Human Motion Synthesis with Transformer VAE [44.523477804533364]
我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。
動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。
生成的変分オートエンコーダを訓練することにより、人間の動きに対する行動認識の潜在表現を学ぶ。
論文 参考訳(メタデータ) (2021-04-12T17:40:27Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - Deep Generative Modelling of Human Reach-and-Place Action [15.38392014421915]
始終位置と終端位置を条件とした人間のリーチ・アンド・プレイス行動の深層生成モデルを提案する。
我々は、このような人間の3Dアクション600のデータセットを取得し、3Dソースとターゲットの2x3-D空間をサンプリングした。
我々の評価には、いくつかの改善、生成的多様性の分析、応用が含まれる。
論文 参考訳(メタデータ) (2020-10-05T21:36:20Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。