論文の概要: UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling
- arxiv url: http://arxiv.org/abs/2508.14604v1
- Date: Wed, 20 Aug 2025 10:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.429215
- Title: UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling
- Title(参考訳): UST-SSM:ポイントクラウドビデオモデリングのための統合時空間モデル
- Authors: Peiming Li, Ziyi Wang, Yulin Yuan, Hong Liu, Xiangming Meng, Junsong Yuan, Mengyuan Liu,
- Abstract要約: ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。
SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示す。
我々は,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
- 参考スコア(独自算出の注目度): 53.199942923818206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud videos capture dynamic 3D motion while reducing the effects of lighting and viewpoint variations, making them highly effective for recognizing subtle and continuous human actions. Although Selective State Space Models (SSMs) have shown good performance in sequence modeling with linear complexity, the spatio-temporal disorder of point cloud videos hinders their unidirectional modeling when directly unfolding the point cloud video into a 1D sequence through temporally sequential scanning. To address this challenge, we propose the Unified Spatio-Temporal State Space Model (UST-SSM), which extends the latest advancements in SSMs to point cloud videos. Specifically, we introduce Spatial-Temporal Selection Scanning (STSS), which reorganizes unordered points into semantic-aware sequences through prompt-guided clustering, thereby enabling the effective utilization of points that are spatially and temporally distant yet similar within the sequence. For missing 4D geometric and motion details, Spatio-Temporal Structure Aggregation (STSA) aggregates spatio-temporal features and compensates. To improve temporal interaction within the sampled sequence, Temporal Interaction Sampling (TIS) enhances fine-grained temporal dependencies through non-anchor frame utilization and expanded receptive fields. Experimental results on the MSR-Action3D, NTU RGB+D, and Synthia 4D datasets validate the effectiveness of our method. Our code is available at https://github.com/wangzy01/UST-SSM.
- Abstract(参考訳): ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ、ダイナミックな3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。
SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示しているが、ポイントクラウドビデオの時空間乱れは、時間的にシーケンシャルスキャンによってポイントクラウドビデオを直接1Dシーケンスに展開する際に、その一方向のモデリングを妨げる。
この課題に対処するため,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
具体的には,無秩序な点をプロンプト誘導クラスタリングにより意味認識配列に再構成し,空間的かつ時間的に類似した点を効果的に活用するSTSSを提案する。
4次元幾何学的・運動的詳細を欠いた場合、時空間構造集約(STSA)は時空間的特徴を集約し補償する。
サンプルシーケンス内の時間的相互作用を改善するため、TIS(Temporal Interaction Smpling)は非アンカーフレームの利用により微細な時間的依存性を高め、受容場を拡大する。
MSR-Action3D,NTU RGB+D,Synthia 4Dデータセットの実験結果から,本手法の有効性を検証した。
私たちのコードはhttps://github.com/wangzy01/UST-SSMで利用可能です。
関連論文リスト
- MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - PSTNet: Point Spatio-Temporal Convolution on Point Cloud Sequences [51.53563462897779]
本稿では,ポイントクラウドシーケンスの情報表現を実現するために,PST畳み込みを提案する。
PSTは3次元空間における局所的構造点を捉えるために空間畳み込みを用い、時間次元に沿った空間領域のダイナミクスをモデル化するために時間畳み込みを用いる。
提案したPST畳み込みを深層ネットワーク,すなわちPSTNetに組み込んで,階層的に点群列の特徴を抽出する。
論文 参考訳(メタデータ) (2022-05-27T02:14:43Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Real-time 3D human action recognition based on Hyperpoint sequence [14.218567196931687]
リアルタイム3次元行動認識のための軽量で効果的な点列ネットワークを提案する。
SequentialPointNetは、時間的時間的局所構造をキャプチャする代わりに、静的な外見の時間的進化をコード化し、人間の行動を認識する。
広く使用されている3つの3次元行動認識データセットの実験により、提案されたSequentialPointNetは、既存のアプローチよりも最大10倍高速で、競合する分類性能を達成することが示された。
論文 参考訳(メタデータ) (2021-11-16T14:13:32Z) - Spatial-Temporal Transformer for 3D Point Cloud Sequences [23.000688043417913]
本稿では,空間時間表現を学習するためのPST(Point Space-Temporal Transformer)という新しいフレームワークを提案する。
我々のPST2は2つの主要なモジュールからなる: 時空間自己認識(STSA)モジュールと分解能埋め込み(RE)モジュール。
PST2の有効性を、ポイントクラウドシーケンス上の2つの異なるタスク、すなわち4Dセマンティックセグメンテーションと3Dアクション認識で検証する。
論文 参考訳(メタデータ) (2021-10-19T07:55:47Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z) - Unsupervised Learning of Global Registration of Temporal Sequence of
Point Clouds [16.019588704177288]
点雲のグローバルな登録は、2次元または3次元の点集合の配列の最適なアライメントを見つけることを目的としている。
本稿では,現在ある深層学習技術を利用して,点雲の時間的シーケンスからグローバルな登録を教師なし学習する手法を提案する。
論文 参考訳(メタデータ) (2020-06-17T06:00:36Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。