論文の概要: An Elastic Shape Variational Autoencoder for Skeleton Pose Trajectories
- arxiv url: http://arxiv.org/abs/2605.09231v1
- Date: Sun, 10 May 2026 00:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.128944
- Title: An Elastic Shape Variational Autoencoder for Skeleton Pose Trajectories
- Title(参考訳): 骨格ポス軌道の弾性形状変化オートエンコーダ
- Authors: Arafat Rahman, Shashwat Kumar, Laura E. Barnes, Anuj Srivastava,
- Abstract要約: 弾性形状 - 変分オートエンコーダ (ES-VAE) は骨格軌道の幾何学的生成モデルである。
2つのデータセットに対するES-VAEの有効性を示す。
- 参考スコア(独自算出の注目度): 8.678193782239054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep generative models provide flexible frameworks for modeling complex, structured data such as images, videos, 3D objects, and texts. However, when applied to sequences of human skeletons, standard variational autoencoders (VAEs) often allocate substantial capacity to nuisance factors-such as camera orientation, subject scale, viewpoint, and execution speed-rather than the intrinsic geometry of shapes and their motion. We propose the Elastic Shape - Variational Autoencoder (ES-VAE), a geometry-aware generative model for skeletal trajectories that leverages the transported square-root velocity field (TSRVF) representation on Kendall's shape manifold. This representation inherently removes rigid translations, rotations, and global scaling of shapes, and temporal rate variability of sequences, isolating the underlying shape dynamics. The ES-VAE encoder maps skeletal sequences to a low-dimensional latent space incorporating the Riemannian logarithm map, while the decoder reconstructs sequences using the corresponding exponential map. We demonstrate the effectiveness of ES-VAE on two datasets. First, we analyze skeletal gait cycles to predict clinical mobility scores and classify subjects into healthy and post-stroke groups. Second, we evaluate action recognition on the NTU RGB+D dataset. Across both settings, ES-VAE consistently outperforms standard VAEs and a range of sequence modeling baselines, including temporal convolutional networks, transformers, and graph convolutional networks. More broadly, ES-VAE provides a principled framework for learning generative models of longitudinal data on pose shape manifolds, offering improved latent representation and downstream performance compared to existing deep learning approaches.
- Abstract(参考訳): 深層生成モデルは、画像、ビデオ、3Dオブジェクト、テキストなどの複雑な構造化データをモデリングするための柔軟なフレームワークを提供する。
しかしながら、人間の骨格の配列に適用する場合、標準的な変分オートエンコーダ(VAE)は、カメラの向き、被写体規模、視点、実行速度など、形状や動きの内在的な幾何学よりもかなりの容量をノイズ要因に割り当てることが多い。
本研究では,Kendall の形状多様体上の輸送平方根速度場 (TSRVF) 表現を利用する骨格軌道の幾何学的生成モデルである Elastic Shape - Variational Autoencoder (ES-VAE) を提案する。
この表現は本質的には、形状の厳密な翻訳、回転、大域的なスケーリングを排除し、列の時間的速度のばらつきを排除し、基礎となる形状力学を分離する。
ES-VAEエンコーダは、骨格列をリーマン対数写像を含む低次元潜在空間にマッピングし、デコーダは対応する指数写像を用いて配列を再構成する。
2つのデータセットに対するES-VAEの有効性を示す。
まず、骨格歩行周期を分析し、臨床モビリティスコアを予測し、被験者を健康グループとポストストロークグループに分類する。
第2に,NTU RGB+Dデータセット上での動作認識を評価する。
両方の設定において、ES-VAEは標準のVAEと、時間的畳み込みネットワーク、トランスフォーマー、グラフ畳み込みネットワークを含む一連のモデリングベースラインを一貫して上回っている。
より広範に、ES-VAEは、ポーズ形状多様体上の長手データの生成モデルを学習するための、原則化されたフレームワークを提供し、既存のディープラーニングアプローチと比較して、遅延表現と下流性能を改善した。
関連論文リスト
- KineDiff3D: Kinematic-Aware Diffusion for Category-Level Articulated Object Shape Reconstruction and Generation [28.822034731724013]
ノートパソコンや引き出しなどのアーティキュレートオブジェクトは、3D再構成とポーズ推定において重要な課題を示す。
そこで我々は, KineDiff3D: Kinematic-Aware Diffusion for Category-Level Articulated Object Shape Reconstruction and Generationを提案する。
論文 参考訳(メタデータ) (2025-10-20T04:15:40Z) - MORPH: Shape-agnostic PDE Foundation Models [37.26306668589026]
MORPHは偏微分方程式(PDE)の形状に依存しない自己回帰基底モデルである
様々なデータ次元(1D--3D)の不均一な評価をシームレスに処理する畳み込み視覚バックボーン上に構築されている。
広範なデータセット全体にわたって、MORPHは強力なベースラインと最近の最先端モデルにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-25T22:38:36Z) - Geometric Operator Learning with Optimal Transport [77.16909146519227]
複素測地上での偏微分方程式(PDE)に対する演算子学習に最適輸送(OT)を統合することを提案する。
表面に焦点を当てた3次元シミュレーションでは、OTベースのニューラルオペレーターが表面形状を2次元パラメータ化潜在空間に埋め込む。
ShapeNet-Car と DrivAerNet-Car を用いたレイノルズ平均化 Navier-Stokes 方程式 (RANS) を用いた実験により,提案手法は精度の向上と計算コストの削減を図った。
論文 参考訳(メタデータ) (2025-07-26T21:28:25Z) - Single-shot prediction of parametric partial differential equations [3.987215131970378]
Flexi-VAEはパラメトリック偏微分方程式(PDE)の効率的な単発予測のためのデータ駆動フレームワークである
本稿では,潜時粘着を進行させるニューラルプロパゲータを提案する。
我々は,PDEベンチマーク,1次元バーガーズ方程式,2次元対流拡散方程式に対してフレキシ-VAEを検証し,広いパラメトリック範囲にわたって正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-14T01:48:26Z) - A Geometry-Aware Message Passing Neural Network for Modeling Aerodynamics over Airfoils [61.60175086194333]
空気力学は航空宇宙工学の重要な問題であり、しばしば翼のような固体物と相互作用する流れを伴う。
本稿では, 固体物体上の非圧縮性流れのモデル化について考察する。
ジオメトリを効果的に組み込むため,メッシュ表現に翼形状を効率よく,かつ効率的に統合するメッセージパッシング方式を提案する。
これらの設計選択は、純粋にデータ駆動の機械学習フレームワークであるGeoMPNNにつながり、NeurIPS 2024 ML4CFDコンペティションで最優秀学生賞を受賞し、総合で4位となった。
論文 参考訳(メタデータ) (2024-12-12T16:05:39Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Dynamical Deep Generative Latent Modeling of 3D Skeletal Motion [15.359134407309726]
本モデルでは,高度に相関した骨格データを時間的変化の空間的基礎の集合に分解する。
これにより、3次元ポーズデータのダイナミックスにおいて意味のある内在状態を解析する動的深部生成潜在モデルが得られる。
論文 参考訳(メタデータ) (2021-06-18T23:58:49Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。