論文の概要: KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals
- arxiv url: http://arxiv.org/abs/2512.16791v1
- Date: Thu, 18 Dec 2025 17:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.183332
- Title: KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals
- Title(参考訳): KineST:スパース信号からの人間の運動追跡のための運動誘導時空間モデル
- Authors: Shuting Zhao, Zeyu Xiao, Xinrong Chen,
- Abstract要約: フルボディモーショントラッキングは、物理と仮想の相互作用をブリッジするAR/VRアプリケーションにおいて重要な役割を果たす。
ヘッドマウントディスプレイから得られるスパース信号に基づいて、現実的で多様なフルボディのポーズを再構築することは困難である。
ポーズ再構成のための既存の方法は、しばしば高い計算コストを発生させるか、別々に空間モデリングと時間的依存に依存している。
局所的および大域的ポーズ知覚を統合しつつ、幾何学的依存関係を効果的に抽出する、新しいキネマティクス誘導状態空間モデルであるKineSTを提案する。
- 参考スコア(独自算出の注目度): 11.14439818111551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-body motion tracking plays an essential role in AR/VR applications, bridging physical and virtual interactions. However, it is challenging to reconstruct realistic and diverse full-body poses based on sparse signals obtained by head-mounted displays, which are the main devices in AR/VR scenarios. Existing methods for pose reconstruction often incur high computational costs or rely on separately modeling spatial and temporal dependencies, making it difficult to balance accuracy, temporal coherence, and efficiency. To address this problem, we propose KineST, a novel kinematics-guided state space model, which effectively extracts spatiotemporal dependencies while integrating local and global pose perception. The innovation comes from two core ideas. Firstly, in order to better capture intricate joint relationships, the scanning strategy within the State Space Duality framework is reformulated into kinematics-guided bidirectional scanning, which embeds kinematic priors. Secondly, a mixed spatiotemporal representation learning approach is employed to tightly couple spatial and temporal contexts, balancing accuracy and smoothness. Additionally, a geometric angular velocity loss is introduced to impose physically meaningful constraints on rotational variations for further improving motion stability. Extensive experiments demonstrate that KineST has superior performance in both accuracy and temporal consistency within a lightweight framework. Project page: https://kaka-1314.github.io/KineST/
- Abstract(参考訳): フルボディモーショントラッキングは、物理と仮想の相互作用をブリッジするAR/VRアプリケーションにおいて重要な役割を果たす。
しかし、AR/VRシナリオの主要なデバイスであるヘッドマウントディスプレイによって得られるスパース信号に基づいて、現実的で多様なフルボディポーズを再構築することは困難である。
ポーズ再構成の既存の方法は、しばしば高い計算コストを発生させるか、空間的および時間的依存関係を別々にモデル化することに依存し、精度、時間的コヒーレンス、効率のバランスをとるのが困難である。
この問題に対処するため、我々は、局所的およびグローバルなポーズ認識を統合しながら、時空間依存を効果的に抽出する、新しいキネマティクス誘導状態空間モデルであるKineSTを提案する。
イノベーションは2つの中核的なアイデアに由来する。
まず、複雑な共同関係をよりよく捉えるために、ステートスペース・デュナリティ・フレームワークの走査戦略を、キネマティックス誘導の双方向走査(kiinematics-guided bidirectional scanning)に再構成し、キネマティック先行を埋め込む。
第2に、空間的・時間的文脈を密結合し、精度と滑らかさのバランスをとるために、混合時空間表現学習手法を用いる。
さらに、運動安定性をさらに向上するため、回転変動に物理的に有意な制約を加えるために幾何学的角速度損失を導入する。
大規模な実験により、KineSTは軽量フレームワーク内での正確性と時間的一貫性の両方において優れたパフォーマンスを示している。
プロジェクトページ:https://kaka-1314.github.io/KineST/
関連論文リスト
- Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - STaR: Seamless Spatial-Temporal Aware Motion Retargeting with Penetration and Consistency Constraints [12.307413108334657]
時空間運動再ターゲティング(STaR)のための新しいシーケンス・ツー・シーケンスモデルを提案する。
STaRは,(1)高密度な形状表現を組み込んだ空間モジュールと,(2)動きのセマンティクスを保ちながら幾何的可視性を確保するための新しい手足浸透制約と,(2)時間変換器と時間的整合性制約を用いて,多段軌道の滑らかさを保ちながら運動列全体を同時に予測する時間モジュールの2つのモジュールから構成される。
論文 参考訳(メタデータ) (2025-04-09T00:37:08Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.83749146867665]
既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。
すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。
本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:48:35Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Tight Fusion of Events and Inertial Measurements for Direct Velocity
Estimation [20.002238735553792]
本研究では,通常のカメラの代わりに動的視覚センサを用いて,一階キネマティクスのレベルで直接視覚-慣性融合を行う新しい手法を提案する。
本研究では, 短時間で高ダイナミックな状況下での速度推定がどのように得られるかを示す。
シミュレーションデータと実データの両方の実験により、提案された密接な事象-慣性融合が連続的かつ信頼性の高い速度推定に繋がることを示した。
論文 参考訳(メタデータ) (2024-01-17T15:56:57Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。