論文の概要: SMamDiff: Spatial Mamba for Stochastic Human Motion Prediction
- arxiv url: http://arxiv.org/abs/2512.00355v1
- Date: Sat, 29 Nov 2025 06:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.190602
- Title: SMamDiff: Spatial Mamba for Stochastic Human Motion Prediction
- Title(参考訳): SMamDiff:確率的人間の動き予測のための空間マンバ
- Authors: Junqiao Fan, Pengfei Liu, Haocong Rao,
- Abstract要約: 本研究は,ヒトの動作予測のための単一段階拡散モデルにおける空間的時間的コヒーレンスを確保する方法に焦点を当てる。
Human3.6MとHumanEvaでは、これらのコヒーレンス機構は、マルチステージ拡散ベースラインよりもレイテンシとメモリを少なくしながら、最先端の結果をもたらす。
- 参考スコア(独自算出の注目度): 26.646112368625207
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With intelligent room-side sensing and service robots widely deployed, human motion prediction (HMP) is essential for safe, proactive assistance. However, many existing HMP methods either produce a single, deterministic forecast that ignores uncertainty or rely on probabilistic models that sacrifice kinematic plausibility. Diffusion models improve the accuracy-diversity trade-off but often depend on multi-stage pipelines that are costly for edge deployment. This work focuses on how to ensure spatial-temporal coherence within a single-stage diffusion model for HMP. We introduce SMamDiff, a Spatial Mamba-based Diffusion model with two novel designs: (i) a residual-DCT motion encoding that subtracts the last observed pose before a temporal DCT, reducing the first DC component ($f=0$) dominance and highlighting informative higher-frequency cues so the model learns how joints move rather than where they are; and (ii) a stickman-drawing spatial-mamba module that processes joints in an ordered, joint-by-joint manner, making later joints condition on earlier ones to induce long-range, cross-joint dependencies. On Human3.6M and HumanEva, these coherence mechanisms deliver state-of-the-art results among single-stage probabilistic HMP methods while using less latency and memory than multi-stage diffusion baselines.
- Abstract(参考訳): インテリジェントルームサイドセンシングとサービスロボットが広く配備されているため、ヒューマンモーション予測(HMP)は安全で積極的な支援に不可欠である。
しかし、既存のHMP手法の多くは、不確実性を無視した単一の決定論的予測を生成するか、あるいは運動学的妥当性を犠牲にする確率論的モデルに依存している。
拡散モデルは精度と多様性のトレードオフを改善するが、エッジデプロイメントにコストがかかるマルチステージパイプラインに依存することが多い。
本研究は,HMPの単一段階拡散モデルにおける空間的時間的コヒーレンスを確保する方法に焦点を当てる。
空間マンバに基づく拡散モデルSMamDiffを紹介する。
i) 時間DCTの前に観測された最後のポーズを減じ、最初のDC成分(f=0$)の優位性を減らし、高周波数の手がかりを強調することにより、モデルが関節の現在地ではなく、どのように動くかを学習する残差DCT動作符号化。
(ii) 整列されたジョイント・バイ・ジョイントな方法で関節を処理するスティックマン描画空間マンバモジュールで、後続のジョイントを以前のジョイントに条件付けして長距離のクロス・ジョイント依存性を誘導する。
Human3.6MとHumanEvaでは、これらのコヒーレンス機構は、多段拡散ベースラインよりもレイテンシとメモリを少なくしながら、単段確率的HMP法で最先端の結果をもたらす。
関連論文リスト
- Navigating the Exploration-Exploitation Tradeoff in Inference-Time Scaling of Diffusion Models [11.813933389519358]
推論時間スケーリングは言語モデルにおいて顕著に成功したが、拡散モデルへの適応は未解明のままである。
スケジュールと適応温度の2つの戦略を提案する。
提案手法は, 騒音評価の総数を増やすことなく, 試料品質を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-17T13:35:38Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - Bayesian-Optimized One-Step Diffusion Model with Knowledge Distillation for Real-Time 3D Human Motion Prediction [2.402745776249116]
本稿では,知識蒸留とベイズ最適化を用いた1段階多層パーセプトロン(MLP)拡散モデルによる動き予測のトレーニングを提案する。
提案モデルでは,予測速度を大幅に向上し,性能の劣化を伴わないリアルタイム予測を実現している。
論文 参考訳(メタデータ) (2024-09-19T04:36:40Z) - Adversarial Schrödinger Bridge Matching [66.39774923893103]
反復マルコフフィッティング(IMF)手順は、マルコフ過程の相互射影と相互射影を交互に交互に行う。
本稿では、プロセスの学習を離散時間でほんの少しの遷移確率の学習に置き換える新しい離散時間IMF(D-IMF)手順を提案する。
D-IMFの手続きは、数百ではなく数世代のステップで、IMFと同じ品質の未完成のドメイン翻訳を提供できることを示す。
論文 参考訳(メタデータ) (2024-05-23T11:29:33Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:53:24Z) - BeLFusion: Latent Diffusion for Behavior-Driven Human Motion Prediction [26.306489700180627]
本研究では,人間の動作予測(HMP)における潜伏拡散モデルを利用して,行動がポーズや動きから切り離されている潜伏空間からサンプルを採取するモデルであるBeLFusionを提案する。
サンプルの動作を進行中の動作に転送する能力のおかげで、Belfusion氏の予測は、芸術の状況よりもはるかに現実的なさまざまな行動を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。