Fugu-MT 論文翻訳(概要): SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network

論文の概要: SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network

arxiv url: http://arxiv.org/abs/2306.17574v1
Date: Fri, 30 Jun 2023 11:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 12:47:40.639172
Title: SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network
Title（参考訳）: SpATr: スパイラルオートエンコーダとトランスフォーマーネットワークに基づくMoCap 3Dヒューマンアクション認識
Authors: Hamza Bouzid and Lahoucine Ballihi
Abstract要約: 本稿では,Spiral Auto-Encoder と Transformer Network をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。スパイラル畳み込みに基づく自動エンコーダを構築することにより、競合認識率と高いメモリ効率を示す。
参考スコア（独自算出の注目度）: 1.279257604152629
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent advancements in technology have expanded the possibilities of human action recognition by leveraging 3D data, which offers a richer representation of actions through the inclusion of depth information, enabling more accurate analysis of spatial and temporal characteristics. However, 3D human action recognition is a challenging task due to the irregularity and Disarrangement of the data points in action sequences. In this context, we present our novel model for human action recognition from fixed topology mesh sequences based on Spiral Auto-encoder and Transformer Network, namely SpATr. The proposed method first disentangles space and time in the mesh sequences. Then, an auto-encoder is utilized to extract spatial geometrical features, and tiny transformer is used to capture the temporal evolution of the sequence. Previous methods either use 2D depth images, sample skeletons points or they require a huge amount of memory leading to the ability to process short sequences only. In this work, we show competitive recognition rate and high memory efficiency by building our auto-encoder based on spiral convolutions, which are light weight convolution directly applied to mesh data with fixed topologies, and by modeling temporal evolution using a attention, that can handle large sequences. The proposed method is evaluated on on two 3D human action datasets: MoVi and BMLrub from the Archive of Motion Capture As Surface Shapes (AMASS). The results analysis shows the effectiveness of our method in 3D human action recognition while maintaining high memory efficiency. The code will soon be made publicly available.
Abstract（参考訳）: 近年の技術の進歩は、深度情報を含めることでよりリッチなアクション表現を提供する3Dデータを活用することで、人間の行動認識の可能性を広げ、空間的および時間的特性をより正確に分析することを可能にする。しかし,3次元行動認識は,行動系列におけるデータ点の不規則性や乱れのため,困難な課題である。本稿では,Spiral Auto-Encoder と Transformer Network,すなわち SpATr をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。提案手法はまず,メッシュ列内の空間と時間をアンタングルする。次に、オートエンコーダを用いて空間幾何学的特徴を抽出し、小さなトランスフォーマーを用いてシーケンスの時間的進化をキャプチャする。従来の手法では、2d深度のイメージやサンプルのスケルトンポイントを使うか、あるいは大量のメモリを必要とするため、短いシーケンスのみを処理できる。本研究では,メッシュデータに直接固定トポロジを適用した軽量畳み込みであるスパイラル畳み込みに基づく自動エンコーダの構築と,大きなシーケンスを処理可能な注意を用いた時間的進化のモデル化により,競合認識率と高いメモリ効率を示す。提案手法は,moviとbmlrubの2つの3次元ヒューマンアクションデータセット上で,表面形状 (amass) として運動キャプチャーアーカイブを用いて評価した。その結果,記憶効率を維持しつつ3次元行動認識における提案手法の有効性が示された。コードは間もなく公開される予定だ。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
SPiKE: 3D Human Pose from Point Cloud Sequences [1.8024397171920885]
3D Human Pose Estimation (HPE) は、RGB画像や深度マップ、点雲などの2次元または3次元表現から、人間の身体のキーポイントを3次元空間内に配置するタスクである。本稿では,点雲列を用いた3次元HPEの新しい手法であるSPiKEを提案する。 3D HPEのITOPベンチマークの実験では、SPiKEは89.19%のmAPに達し、推論時間を大幅に短縮して最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-09-03T13:22:01Z)
Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文参考訳（メタデータ） (2024-07-03T10:42:09Z)
Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。 textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。 SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文参考訳（メタデータ） (2024-03-02T08:18:57Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文参考訳（メタデータ） (2022-03-25T00:20:31Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文参考訳（メタデータ） (2020-12-22T22:43:35Z)
Anchor-Based Spatial-Temporal Attention Convolutional Networks for Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文参考訳（メタデータ） (2020-12-20T07:35:37Z)
Deep Generative Modelling of Human Reach-and-Place Action [15.38392014421915]
始終位置と終端位置を条件とした人間のリーチ・アンド・プレイス行動の深層生成モデルを提案する。我々は、このような人間の3Dアクション600のデータセットを取得し、3Dソースとターゲットの2x3-D空間をサンプリングした。我々の評価には、いくつかの改善、生成的多様性の分析、応用が含まれる。
論文参考訳（メタデータ） (2020-10-05T21:36:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。