論文の概要: NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding
- arxiv url: http://arxiv.org/abs/2310.08326v1
- Date: Thu, 12 Oct 2023 13:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:22:30.436747
- Title: NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence
Understanding
- Title(参考訳): NSM4D:オンライン4Dポイントクラウドシーケンス理解に基づくニューラルシーンモデル
- Authors: Yuhao Dong, Zhuoyang Zhang, Yunze Liu, Li Yi
- Abstract要約: NSM4Dと呼ばれる汎用的なオンライン4D知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能する。
屋内および屋外環境における各種オンライン知覚ベンチマークにおいて,顕著な改善が示された。
- 参考スコア(独自算出の注目度): 20.79861588128133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 4D point cloud sequences online is of significant practical
value in various scenarios such as VR/AR, robotics, and autonomous driving. The
key goal is to continuously analyze the geometry and dynamics of a 3D scene as
unstructured and redundant point cloud sequences arrive. And the main challenge
is to effectively model the long-term history while keeping computational costs
manageable. To tackle these challenges, we introduce a generic online 4D
perception paradigm called NSM4D. NSM4D serves as a plug-and-play strategy that
can be adapted to existing 4D backbones, significantly enhancing their online
perception capabilities for both indoor and outdoor scenarios. To efficiently
capture the redundant 4D history, we propose a neural scene model that
factorizes geometry and motion information by constructing geometry tokens
separately storing geometry and motion features. Exploiting the history becomes
as straightforward as querying the neural scene model. As the sequence
progresses, the neural scene model dynamically deforms to align with new
observations, effectively providing the historical context and updating itself
with the new observations. By employing token representation, NSM4D also
exhibits robustness to low-level sensor noise and maintains a compact size
through a geometric sampling scheme. We integrate NSM4D with state-of-the-art
4D perception backbones, demonstrating significant improvements on various
online perception benchmarks in indoor and outdoor settings. Notably, we
achieve a 9.6% accuracy improvement for HOI4D online action segmentation and a
3.4% mIoU improvement for SemanticKITTI online semantic segmentation.
Furthermore, we show that NSM4D inherently offers excellent scalability to
longer sequences beyond the training set, which is crucial for real-world
applications.
- Abstract(参考訳): 4dポイントクラウドシーケンスのオンライン理解は、vr/ar、ロボティクス、自動運転といったさまざまなシナリオにおいて、非常に実用的なものだ。
鍵となる目標は、非構造化で冗長な点雲列が到着する3dシーンの幾何学とダイナミクスを継続的に分析することである。
そして、主な課題は、計算コストを管理しながら、長期の歴史を効果的にモデル化することである。
これらの課題に取り組むため,我々はnsm4dと呼ばれる一般的なオンライン4次元知覚パラダイムを導入する。
NSM4Dは、既存の4Dバックボーンに適応可能なプラグアンドプレイ戦略として機能し、屋内および屋外の両方のシナリオにおいて、オンライン認識能力を大幅に向上させる。
冗長な4次元履歴を効率的に捉えるために,幾何と動きの特徴を個別に保存する幾何トークンを構築し,幾何と動き情報を分解するニューラルシーンモデルを提案する。
履歴のエクスプロイトは、ニューラルシーンモデルをクエリするのと同じくらい簡単になります。
シーケンスが進むにつれて、ニューラルシーンモデルは動的に変形し、新しい観察と一致し、効果的に歴史的な文脈を提供し、新しい観測で自身を更新する。
トークン表現を用いることで、NSM4Dは低レベルのセンサノイズに対して堅牢性を示し、幾何学的サンプリング方式によりコンパクトなサイズを維持する。
我々はNSM4Dを最先端の4D知覚バックボーンと統合し、屋内および屋外における様々なオンライン知覚ベンチマークに顕著な改善を示す。
特に、HOI4Dオンラインアクションセグメンテーションの9.6%の精度向上、SemanticKITTIオンラインセグメンテーションの3.4%のmIoU改善を実現している。
さらに,NSM4Dはトレーニングセットを超えた長いシーケンスに対して,本質的に優れたスケーラビリティを提供する。
関連論文リスト
- Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly Training for 4D Reconstruction [12.111389926333592]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度化されたガウスを常に更新する。
そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。
提案手法は,オンライン4次元再構成における最先端性能を実現し,実時間トレーニング速度の20%向上,表現品質の向上,リアルタイムレンダリング能力の向上を実証する。
論文 参考訳(メタデータ) (2024-11-22T10:47:47Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。