論文の概要: Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation
- arxiv url: http://arxiv.org/abs/2407.07995v1
- Date: Wed, 10 Jul 2024 18:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:39:04.211047
- Title: Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation
- Title(参考訳): Flow4D:LiDARシーンフロー推定のための4Dボクセルネットワークを活用する
- Authors: Jaeyeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im,
- Abstract要約: Flow4Dは3Dイントラボクセル機能エンコーダの後、時間的に複数の点雲を融合する。
Spatio-Temporal De Blockcomposition (STDB)は、重い4Dコンボリューションを使用する代わりに、3Dと1Dコンボリューションを組み合わせる。
Flow4Dは、リアルタイム実行時の最先端よりも45.9%高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 20.904903264632733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the motion states of the surrounding environment is critical for safe autonomous driving. These motion states can be accurately derived from scene flow, which captures the three-dimensional motion field of points. Existing LiDAR scene flow methods extract spatial features from each point cloud and then fuse them channel-wise, resulting in the implicit extraction of spatio-temporal features. Furthermore, they utilize 2D Bird's Eye View and process only two frames, missing crucial spatial information along the Z-axis and the broader temporal context, leading to suboptimal performance. To address these limitations, we propose Flow4D, which temporally fuses multiple point clouds after the 3D intra-voxel feature encoder, enabling more explicit extraction of spatio-temporal features through a 4D voxel network. However, while using 4D convolution improves performance, it significantly increases the computational load. For further efficiency, we introduce the Spatio-Temporal Decomposition Block (STDB), which combines 3D and 1D convolutions instead of using heavy 4D convolution. In addition, Flow4D further improves performance by using five frames to take advantage of richer temporal information. As a result, the proposed method achieves a 45.9% higher performance compared to the state-of-the-art while running in real-time, and won 1st place in the 2024 Argoverse 2 Scene Flow Challenge. The code is available at https://github.com/dgist-cvlab/Flow4D.
- Abstract(参考訳): 周囲の環境の運動状態を理解することは安全な自動運転に不可欠である。
これらの運動状態は、ポイントの3次元運動場をキャプチャするシーンフローから正確に導き出すことができる。
既存のLiDARシーンフロー法は各点雲から空間的特徴を抽出し、チャネル的に融合し、時空間の特徴を暗黙的に抽出する。
さらに、2D Birdのアイビューを使用し、2つのフレームのみを処理し、Z軸とより広い時間的文脈に沿った重要な空間情報を欠いているため、最適以下の性能が得られる。
これらの制約に対処するために,3次元ボクセル内特徴エンコーダの後に複数の点群を時間的に融合させるFlow4Dを提案する。
しかし、4D畳み込みを用いることで性能が向上する一方、計算負荷は大幅に増大する。
さらに効率を上げるために、重い4D畳み込みではなく、3Dと1D畳み込みを組み合わせた時空間分解ブロック(STDB)を導入する。
さらに、Flow4Dは5フレームを使用してよりリッチな時間情報を活用することで、パフォーマンスをさらに向上する。
その結果,提案手法は実時間走行時の最先端技術と比較して45.9%高い性能を達成し,2024年のArgoverse 2 Scene Flow Challengeで1位を獲得した。
コードはhttps://github.com/dgist-cvlab/Flow4Dで公開されている。
関連論文リスト
- S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。
この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。
従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
我々は、最近進歩したステートスペースモデル(SSM)に基づく、新しい4Dポイントクラウドビデオ理解バックボーンを提案する。
具体的には、私たちのバックボーンは、生の4Dジオメトリで空間と時間を取り除き、セマンティック・テンポラルなビデオを確立することから始まります。
我々の手法は、トランスフォーマーベースのMS3Dと比較して、87.5%のメモリ削減、5.36倍のスピードアップ、さらにはるかに高い精度(+104%)を持つ。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - DeFlow: Decoder of Scene Flow Network in Autonomous Driving [19.486167661795797]
シーンフロー推定は、シーン内のポイントの運動を予測することによって、シーンの3次元運動場を決定する。
入力として大規模な点雲を持つ多くのネットワークは、リアルタイム実行のための擬似イメージを作成するためにボキセル化を使用する。
本稿では, Gated Recurrent Unit (GRU) の改良により, ボクセルをベースとした特徴から点への遷移を可能にするDeFlowを紹介した。
論文 参考訳(メタデータ) (2024-01-29T12:47:55Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos
through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。
時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。
様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-12-12T15:48:12Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Learning Spatial and Temporal Variations for 4D Point Cloud Segmentation [0.39373541926236766]
フレーム間の時間的情報は3次元シーンの知覚に重要な知識をもたらすと我々は主張する。
本研究では,4次元点雲の時間変動を捉えるために,時間変動対応モジュールと時間変化対応のボクセル点精製器を設計する。
論文 参考訳(メタデータ) (2022-07-11T07:36:26Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。