論文の概要: STS-Mixer: Spatio-Temporal-Spectral Mixer for 4D Point Cloud Video Understanding
- arxiv url: http://arxiv.org/abs/2604.11637v1
- Date: Mon, 13 Apr 2026 15:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.660494
- Title: STS-Mixer: Spatio-Temporal-Spectral Mixer for 4D Point Cloud Video Understanding
- Title(参考訳): STS-Mixer: 4Dポイントクラウドビデオ理解のための時空間スペクトルミキサー
- Authors: Wenhao Li, Xueying Jiang, Gongjie Zhang, Xiaoqin Zhang, Ling Shao, Shijian Lu,
- Abstract要約: 我々は、ポイントクラウドビデオの空間的、時間的、スペクトル的表現を混合するフレームワークを開発する。
STS-Mixerは、3Dアクション認識と4Dセマンティックセグメンテーションタスクの両方において、広く採用されている複数のベンチマークで一貫して優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 88.18619962455948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D point cloud videos capture rich spatial and temporal dynamics of scenes which possess unique values in various 4D understanding tasks. However, most existing methods work in the spatiotemporal domain where the underlying geometric characteristics of 4D point cloud videos are hard to capture, leading to degraded representation learning and understanding of 4D point cloud videos. We address the above challenge from a complementary spectral perspective. By transforming 4D point cloud videos into graph spectral signals, we can decompose them into multiple frequency bands each of which captures distinct geometric structures of point cloud videos. Our spectral analysis reveals that the decomposed low-frequency signals capture more coarse shapes while high-frequency signals encode more fine-grained geometry details. Building on these observations, we design Spatio-Temporal-Spectral Mixer (STS-Mixer), a unified framework that mixes spatial, temporal, and spectral representations of point cloud videos. STS-Mixer integrates multi-band delineated spectral signals with spatiotemporal information to capture rich geometries and temporal dynamics, while enabling fine-grained and holistic understanding of 4D point cloud videos. Extensive experiments show that STS-Mixer achieves superior performance consistently across multiple widely adopted benchmarks on both 3D action recognition and 4D semantic segmentation tasks. Code and models are available at https://github.com/Vegetebird/STS-Mixer.
- Abstract(参考訳): 4Dポイントクラウドビデオは、様々な4D理解タスクでユニークな値を持つシーンの、豊かな空間的および時間的ダイナミクスをキャプチャする。
しかし、既存のほとんどの手法は、4Dポイントクラウドビデオの基本的な幾何学的特徴を捉えにくい時空間領域で機能し、4Dポイントクラウドビデオの劣化した表現学習と理解につながる。
上記の課題を相補的なスペクトルの観点から解決する。
4Dポイントクラウドビデオをグラフスペクトル信号に変換することで、それらを複数の周波数帯域に分解して、ポイントクラウドビデオの異なる幾何学的構造を捉えることができる。
スペクトル分析により、分解された低周波信号はより粗い形状を捉え、高周波信号はより微細な幾何学的詳細を符号化していることが明らかとなった。
これらの観測に基づいて,空間,時間,スペクトルを混合した統合フレームワークであるSTS-Mixerを設計した。
STS-Mixerは、マルチバンドのスペクトル信号を時空間情報と統合し、リッチなジオメトリと時間ダイナミクスを捉えながら、4Dポイントのクラウドビデオのきめ細やかな理解を可能にする。
広範な実験により、STS-Mixerは3Dアクション認識と4Dセマンティックセマンティックセグメンテーションタスクの両方において、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成することが示された。
コードとモデルはhttps://github.com/Vegetebird/STS-Mixer.comで入手できる。
関連論文リスト
- Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting [50.69165364520998]
実世界の非同期ビデオ集合を扱うために, マルチビデオ4Dガウススプラッティング (4DGS) 方式を提案する。
SyncTrack4Dは、4DGSの同時同期と4DGS再構成のためのキューとして動的シーンの高密度な4Dトラック表現を直接活用する。
我々はPanoptic Studio と SyncNeRF Blender に対するアプローチを評価し,0.26 フレーム以下の平均時間誤差でサブフレーム同期精度を示し,高忠実度 4D 再構成は26.3 PSNR スコアに達した。
論文 参考訳(メタデータ) (2025-12-03T23:05:01Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling [53.199942923818206]
ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。
SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示す。
我々は,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
論文 参考訳(メタデータ) (2025-08-20T10:46:01Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。