論文の概要: SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder
and Transformer Network
- arxiv url: http://arxiv.org/abs/2306.17574v1
- Date: Fri, 30 Jun 2023 11:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:47:40.639172
- Title: SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder
and Transformer Network
- Title(参考訳): SpATr: スパイラルオートエンコーダとトランスフォーマーネットワークに基づくMoCap 3Dヒューマンアクション認識
- Authors: Hamza Bouzid and Lahoucine Ballihi
- Abstract要約: 本稿では,Spiral Auto-Encoder と Transformer Network をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。
スパイラル畳み込みに基づく自動エンコーダを構築することにより、競合認識率と高いメモリ効率を示す。
- 参考スコア(独自算出の注目度): 1.279257604152629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in technology have expanded the possibilities of human
action recognition by leveraging 3D data, which offers a richer representation
of actions through the inclusion of depth information, enabling more accurate
analysis of spatial and temporal characteristics. However, 3D human action
recognition is a challenging task due to the irregularity and Disarrangement of
the data points in action sequences. In this context, we present our novel
model for human action recognition from fixed topology mesh sequences based on
Spiral Auto-encoder and Transformer Network, namely SpATr. The proposed method
first disentangles space and time in the mesh sequences. Then, an auto-encoder
is utilized to extract spatial geometrical features, and tiny transformer is
used to capture the temporal evolution of the sequence. Previous methods either
use 2D depth images, sample skeletons points or they require a huge amount of
memory leading to the ability to process short sequences only. In this work, we
show competitive recognition rate and high memory efficiency by building our
auto-encoder based on spiral convolutions, which are light weight convolution
directly applied to mesh data with fixed topologies, and by modeling temporal
evolution using a attention, that can handle large sequences. The proposed
method is evaluated on on two 3D human action datasets: MoVi and BMLrub from
the Archive of Motion Capture As Surface Shapes (AMASS). The results analysis
shows the effectiveness of our method in 3D human action recognition while
maintaining high memory efficiency. The code will soon be made publicly
available.
- Abstract(参考訳): 近年の技術の進歩は、深度情報を含めることでよりリッチなアクション表現を提供する3Dデータを活用することで、人間の行動認識の可能性を広げ、空間的および時間的特性をより正確に分析することを可能にする。
しかし,3次元行動認識は,行動系列におけるデータ点の不規則性や乱れのため,困難な課題である。
本稿では,Spiral Auto-Encoder と Transformer Network,すなわち SpATr をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。
提案手法はまず,メッシュ列内の空間と時間をアンタングルする。
次に、オートエンコーダを用いて空間幾何学的特徴を抽出し、小さなトランスフォーマーを用いてシーケンスの時間的進化をキャプチャする。
従来の手法では、2d深度のイメージやサンプルのスケルトンポイントを使うか、あるいは大量のメモリを必要とするため、短いシーケンスのみを処理できる。
本研究では,メッシュデータに直接固定トポロジを適用した軽量畳み込みであるスパイラル畳み込みに基づく自動エンコーダの構築と,大きなシーケンスを処理可能な注意を用いた時間的進化のモデル化により,競合認識率と高いメモリ効率を示す。
提案手法は,moviとbmlrubの2つの3次元ヒューマンアクションデータセット上で,表面形状 (amass) として運動キャプチャーアーカイブを用いて評価した。
その結果,記憶効率を維持しつつ3次元行動認識における提案手法の有効性が示された。
コードは間もなく公開される予定だ。
関連論文リスト
- SPiKE: 3D Human Pose from Point Cloud Sequences [1.8024397171920885]
3D Human Pose Estimation (HPE) は、RGB画像や深度マップ、点雲などの2次元または3次元表現から、人間の身体のキーポイントを3次元空間内に配置するタスクである。
本稿では,点雲列を用いた3次元HPEの新しい手法であるSPiKEを提案する。
3D HPEのITOPベンチマークの実験では、SPiKEは89.19%のmAPに達し、推論時間を大幅に短縮して最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-09-03T13:22:01Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - Deep Generative Modelling of Human Reach-and-Place Action [15.38392014421915]
始終位置と終端位置を条件とした人間のリーチ・アンド・プレイス行動の深層生成モデルを提案する。
我々は、このような人間の3Dアクション600のデータセットを取得し、3Dソースとターゲットの2x3-D空間をサンプリングした。
我々の評価には、いくつかの改善、生成的多様性の分析、応用が含まれる。
論文 参考訳(メタデータ) (2020-10-05T21:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。