論文の概要: High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2510.11017v1
- Date: Mon, 13 Oct 2025 05:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.210635
- Title: High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation
- Title(参考訳): グローバルローカル空間モデルを用いた高分解能時空間モデリングによるビデオベースヒューマンポース推定
- Authors: Runyang Feng, Hyung Jin Chang, Tze Ho Elden Tse, Boeun Kim, Yi Chang, Yixing Gao,
- Abstract要約: ビデオに基づく人間のポーズ推定には高分解能時間表現のモデル化が不可欠である。
現在の最先端の手法は、大域的および局所的動的モデリングのバランスをとるのが難しいのが普通である。
本稿では,VHPEのグローバルおよびローカルな高解像度表現を個別に学習するために,Mambaコンテキストを拡張したフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.450956424316196
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modeling high-resolution spatiotemporal representations, including both global dynamic contexts (e.g., holistic human motion tendencies) and local motion details (e.g., high-frequency changes of keypoints), is essential for video-based human pose estimation (VHPE). Current state-of-the-art methods typically unify spatiotemporal learning within a single type of modeling structure (convolution or attention-based blocks), which inherently have difficulties in balancing global and local dynamic modeling and may bias the network to one of them, leading to suboptimal performance. Moreover, existing VHPE models suffer from quadratic complexity when capturing global dependencies, limiting their applicability especially for high-resolution sequences. Recently, the state space models (known as Mamba) have demonstrated significant potential in modeling long-range contexts with linear complexity; however, they are restricted to 1D sequential data. In this paper, we present a novel framework that extends Mamba from two aspects to separately learn global and local high-resolution spatiotemporal representations for VHPE. Specifically, we first propose a Global Spatiotemporal Mamba, which performs 6D selective space-time scan and spatial- and temporal-modulated scan merging to efficiently extract global representations from high-resolution sequences. We further introduce a windowed space-time scan-based Local Refinement Mamba to enhance the high-frequency details of localized keypoint motions. Extensive experiments on four benchmark datasets demonstrate that the proposed model outperforms state-of-the-art VHPE approaches while achieving better computational trade-offs.
- Abstract(参考訳): 高分解能時空間表現のモデル化は、グローバルな動的文脈(例えば、全体的人間の動き傾向)と局所的な動きの詳細(例えば、キーポイントの高周波変化)の両方を含む、ビデオベースの人間のポーズ推定(VHPE)に不可欠である。
現在の最先端の手法は、通常、一種類のモデリング構造(畳み込みまたは注意に基づくブロック)において時空間学習を統一する。
さらに、既存のVHPEモデルは、グローバル依存関係をキャプチャする際の2次複雑さに悩まされ、特に高分解能シーケンスに対する適用性が制限される。
近年、状態空間モデル(Mambaとして知られる)は、線形複雑性を持つ長距離コンテキストをモデル化する大きな可能性を示しているが、それらは1Dシーケンシャルデータに制限されている。
本稿では,VHPEのグローバルおよびローカルな高分解能時空間表現を別々に学習するために,マンバを2つの側面から拡張する新しいフレームワークを提案する。
具体的には,高分解能シーケンスからグローバル表現を効率よく抽出するために,空間・時間変調スキャンと空間・時間変調スキャンの融合を6次元選択的に行うグローバル時空間マンバを提案する。
さらに,局所的なキーポイント運動の高頻度詳細性を高めるために,ウィンドウ化された時空間スキャンに基づくローカルリファインメント・マンバを導入する。
4つのベンチマークデータセットの大規模な実験により、提案モデルは最先端のVHPEアプローチよりも優れた計算トレードオフを実現し、性能が向上することを示した。
関連論文リスト
- SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文 参考訳(メタデータ) (2025-09-19T02:41:37Z) - VDEGaussian: Video Diffusion Enhanced 4D Gaussian Splatting for Dynamic Urban Scenes Modeling [68.65587507038539]
本稿では,動的都市景観モデリングのための拡散強調4次元ガウス平滑化フレームワークを提案する。
我々の重要な洞察は、テスト時間に適応したビデオ拡散モデルから頑健で時間的に一貫した事前情報を抽出することである。
提案手法は, 高速移動物体の動的モデリングを著しく向上させ, 2dBのPSNRゲインを近似的に達成する。
論文 参考訳(メタデータ) (2025-08-04T07:24:05Z) - Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。
本研究では,時間領域毎に最適な因果予測値が得られることを示す。
合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文 参考訳(メタデータ) (2025-06-21T14:05:37Z) - FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。
FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。
汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文 参考訳(メタデータ) (2024-10-28T11:04:42Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。