論文の概要: PointNet4D: A Lightweight 4D Point Cloud Video Backbone for Online and Offline Perception in Robotic Applications
- arxiv url: http://arxiv.org/abs/2512.01383v1
- Date: Mon, 01 Dec 2025 07:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.752934
- Title: PointNet4D: A Lightweight 4D Point Cloud Video Backbone for Online and Offline Perception in Robotic Applications
- Title(参考訳): PointNet4D: ロボットアプリケーションにおけるオンラインおよびオフライン知覚のための軽量4Dポイントクラウドビデオバックボーン
- Authors: Yunze Liu, Zifan Wang, Peiran Wu, Jiayang Ao,
- Abstract要約: オンラインとオフラインの両方に最適化された軽量な4DバックボーンであるPointNet4Dを提案する。
中心となるのはHybrid Mamba-Transformer temporal fusion blockであり、これはMambaの効率的な状態空間モデリングとTransformerの双方向モデリング能力を統合している。
時間的理解を高めるために,フレーム単位のマスク付き自己回帰事前学習戦略である4DMAPを導入する。
- 参考スコア(独自算出の注目度): 17.120778989036012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding dynamic 4D environments-3D space evolving over time-is critical for robotic and interactive systems. These applications demand systems that can process streaming point cloud video in real-time, often under resource constraints, while also benefiting from past and present observations when available. However, current 4D backbone networks rely heavily on spatiotemporal convolutions and Transformers, which are often computationally intensive and poorly suited to real-time applications. We propose PointNet4D, a lightweight 4D backbone optimized for both online and offline settings. At its core is a Hybrid Mamba-Transformer temporal fusion block, which integrates the efficient state-space modeling of Mamba and the bidirectional modeling power of Transformers. This enables PointNet4D to handle variable-length online sequences efficiently across different deployment scenarios. To enhance temporal understanding, we introduce 4DMAP, a frame-wise masked auto-regressive pretraining strategy that captures motion cues across frames. Our extensive evaluations across 9 tasks on 7 datasets, demonstrating consistent improvements across diverse domains. We further demonstrate PointNet4D's utility by building two robotic application systems: 4D Diffusion Policy and 4D Imitation Learning, achieving substantial gains on the RoboTwin and HandoverSim benchmarks.
- Abstract(参考訳): 動的4D環境3D空間の時間的進化を理解することは、ロボットとインタラクティブシステムにとって極めて重要である。
これらのアプリケーションは、しばしばリソース制約の下で、リアルタイムにストリーミングポイントクラウドビデオを処理できるシステムを必要とします。
しかし、現在の4Dバックボーンネットワークは時空間の畳み込みやトランスフォーマーに大きく依存している。
オンラインとオフラインの両方に最適化された軽量な4DバックボーンであるPointNet4Dを提案する。
中心となるのはHybrid Mamba-Transformer temporal fusion blockであり、これはMambaの効率的な状態空間モデリングとTransformerの双方向モデリング能力を統合している。
これによりPointNet4Dは、さまざまなデプロイメントシナリオで、変数長のオンラインシーケンスを効率的に処理できる。
時間的理解を高めるために,フレーム単位のマスク付き自己回帰事前学習戦略である4DMAPを導入する。
7つのデータセット上の9つのタスクにわたる広範な評価を行い、さまざまなドメインで一貫した改善を実証しました。
さらに,4D Diffusion Policy と 4D Imitation Learning という2つのロボットアプリケーションシステムを構築し,RoboTwin と HandoverSim のベンチマークでかなりの成果を上げ,PointNet4D の有用性を実証する。
関連論文リスト
- Streaming 4D Visual Geometry Transformer [63.99937807085461]
入力シーケンスをオンラインで処理するストリーミング4Dビジュアルジオメトリ変換器を提案する。
時間的因果的注意を用いて、履歴キーと値を暗黙記憶としてキャッシュし、より効率的な長期4D再構成を可能にする。
各種4次元幾何知覚ベンチマーク実験により,オンラインシナリオにおける推論速度の向上が示された。
論文 参考訳(メタデータ) (2025-07-15T17:59:57Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding [20.79861588128133]
NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2023-10-12T13:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。