論文の概要: Spatiotemporal-Untrammelled Mixture of Experts for Multi-Person Motion Prediction
- arxiv url: http://arxiv.org/abs/2512.21707v1
- Date: Thu, 25 Dec 2025 15:01:19 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:04:47.330489
- Title: Spatiotemporal-Untrammelled Mixture of Experts for Multi-Person Motion Prediction
- Title(参考訳): 多人数運動予測のための時空間無音混合専門家
- Authors: Zheng Yin, Chengjian Li, Xiangbo Shu, Meiqi Cao, Rui Yan, Jinhui Tang,
- Abstract要約: 人間の動作の複雑な時間的依存関係を包括的に捉えることは、多対人動作にとって重要である。
既存の方法には2つの主要な制限がある。
従来の注意の時間に起因した計算コストが高い。
我々のモデルは4種類の時間的専門家を取り入れており、それぞれ異なる空間的・時間的依存を捉えている。
- 参考スコア(独自算出の注目度): 53.555201955973104
- License:
- Abstract: Comprehensively and flexibly capturing the complex spatio-temporal dependencies of human motion is critical for multi-person motion prediction. Existing methods grapple with two primary limitations: i) Inflexible spatiotemporal representation due to reliance on positional encodings for capturing spatiotemporal information. ii) High computational costs stemming from the quadratic time complexity of conventional attention mechanisms. To overcome these limitations, we propose the Spatiotemporal-Untrammelled Mixture of Experts (ST-MoE), which flexibly explores complex spatio-temporal dependencies in human motion and significantly reduces computational cost. To adaptively mine complex spatio-temporal patterns from human motion, our model incorporates four distinct types of spatiotemporal experts, each specializing in capturing different spatial or temporal dependencies. To reduce the potential computational overhead while integrating multiple experts, we introduce bidirectional spatiotemporal Mamba as experts, each sharing bidirectional temporal and spatial Mamba in distinct combinations to achieve model efficiency and parameter economy. Extensive experiments on four multi-person benchmark datasets demonstrate that our approach not only outperforms state-of-art in accuracy but also reduces model parameter by 41.38% and achieves a 3.6x speedup in training. The code is available at https://github.com/alanyz106/ST-MoE.
- Abstract(参考訳): 人間の動作の複雑な時空間的依存関係を包括的かつ柔軟に捉えることは、多対人動作予測に不可欠である。
既存のメソッドには2つの主要な制限がある。
一 時空間情報を取得するための位置エンコーディングに依存するため、非フレキシブルな時空間表現
二 従来の注意機構の二次的時間的複雑さから生じる計算コストが高いこと。
これらの制約を克服するために、人間の運動における複雑な時空間依存性を柔軟に探求し、計算コストを大幅に削減する時空間混合(ST-MoE)を提案する。
ヒトの運動から複雑な時空間パターンを適応的に抽出するために、我々のモデルは4種類の時空間エキスパートを取り入れ、それぞれ異なる空間的・時間的依存を捉えている。
複数の専門家を統合しながら計算オーバーヘッドを低減するため,両方向の時空間的マンバをそれぞれ異なる組み合わせで共有し,モデル効率とパラメータ経済を実現する。
4つのマルチパーソンベンチマークデータセットに対する大規模な実験は、我々のアプローチが最先端の精度を上回るだけでなく、モデルのパラメータを41.38%削減し、トレーニングの3.6倍のスピードアップを達成することを示した。
コードはhttps://github.com/alanyz106/ST-MoE.comで公開されている。
関連論文リスト
- RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - Efficient Multi-Person Motion Prediction by Lightweight Spatial and Temporal Interactions [45.51160285910023]
空間的・時間的相互作用を単純化し,多人数動作予測のための計算効率の良いモデルを提案する。
CMU-Mocap, MuPoTS-3D, 3DPW の標準データセット上で, マルチメトリックの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-13T02:16:37Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Rethinking Spatio-Temporal Transformer for Traffic Prediction:Multi-level Multi-view Augmented Learning Framework [4.773547922851949]
トラフィックは、非常に複雑なセマンティックな相関を含む、困難な時間的予測問題である。
本稿では,交通予測のためのマルチレベル多視点時間変換器(LVST)を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:36:57Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。