Fugu-MT 論文翻訳(概要): Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation

論文の概要: Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation

arxiv url: http://arxiv.org/abs/2407.07995v1
Date: Wed, 10 Jul 2024 18:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 21:39:04.211047
Title: Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation
Title（参考訳）: Flow4D:LiDARシーンフロー推定のための4Dボクセルネットワークを活用する
Authors: Jaeyeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im,
Abstract要約: Flow4Dは3Dイントラボクセル機能エンコーダの後、時間的に複数の点雲を融合する。 Spatio-Temporal De Blockcomposition (STDB)は、重い4Dコンボリューションを使用する代わりに、3Dと1Dコンボリューションを組み合わせる。 Flow4Dは、リアルタイム実行時の最先端よりも45.9%高いパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 20.904903264632733
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding the motion states of the surrounding environment is critical for safe autonomous driving. These motion states can be accurately derived from scene flow, which captures the three-dimensional motion field of points. Existing LiDAR scene flow methods extract spatial features from each point cloud and then fuse them channel-wise, resulting in the implicit extraction of spatio-temporal features. Furthermore, they utilize 2D Bird's Eye View and process only two frames, missing crucial spatial information along the Z-axis and the broader temporal context, leading to suboptimal performance. To address these limitations, we propose Flow4D, which temporally fuses multiple point clouds after the 3D intra-voxel feature encoder, enabling more explicit extraction of spatio-temporal features through a 4D voxel network. However, while using 4D convolution improves performance, it significantly increases the computational load. For further efficiency, we introduce the Spatio-Temporal Decomposition Block (STDB), which combines 3D and 1D convolutions instead of using heavy 4D convolution. In addition, Flow4D further improves performance by using five frames to take advantage of richer temporal information. As a result, the proposed method achieves a 45.9% higher performance compared to the state-of-the-art while running in real-time, and won 1st place in the 2024 Argoverse 2 Scene Flow Challenge. The code is available at https://github.com/dgist-cvlab/Flow4D.
Abstract（参考訳）: 周囲の環境の運動状態を理解することは安全な自動運転に不可欠である。これらの運動状態は、ポイントの3次元運動場をキャプチャするシーンフローから正確に導き出すことができる。既存のLiDARシーンフロー法は各点雲から空間的特徴を抽出し、チャネル的に融合し、時空間の特徴を暗黙的に抽出する。さらに、2D Birdのアイビューを使用し、2つのフレームのみを処理し、Z軸とより広い時間的文脈に沿った重要な空間情報を欠いているため、最適以下の性能が得られる。これらの制約に対処するために,3次元ボクセル内特徴エンコーダの後に複数の点群を時間的に融合させるFlow4Dを提案する。しかし、4D畳み込みを用いることで性能が向上する一方、計算負荷は大幅に増大する。さらに効率を上げるために、重い4D畳み込みではなく、3Dと1D畳み込みを組み合わせた時空間分解ブロック(STDB)を導入する。さらに、Flow4Dは5フレームを使用してよりリッチな時間情報を活用することで、パフォーマンスをさらに向上する。その結果,提案手法は実時間走行時の最先端技術と比較して45.9%高い性能を達成し,2024年のArgoverse 2 Scene Flow Challengeで1位を獲得した。コードはhttps://github.com/dgist-cvlab/Flow4Dで公開されている。

関連論文リスト

Disentangled 4D Gaussian Splatting: Towards Faster and More Efficient Dynamic Scene Rendering [12.27734287104036]
2次元画像から動的シーンを合成する新アンタングルビュー合成(NVS)は重要な課題である。時間的および空間的変形を両立させる新しい表現・レンダリング手法であるDisentangled 4D Gaussianting(Disentangled4DGS)を導入する。提案手法は,3090 GPU上での1352times1014$の解像度で,343FPSの平均レンダリング速度を実現している。
論文参考訳（メタデータ） (2025-03-28T05:46:02Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文参考訳（メタデータ） (2024-12-09T18:58:03Z)
Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [64.38566659338751]
Deblur4DGSという,ぼやけたモノクロビデオから高品質な4Dモデルを再構成するための,最初の4Dガウス分割フレームワークを提案する。本稿では,多面的,多面的整合性,多面的,多面的,多面的な整合性を実現するために露光規則化を導入し,斬新な視点以外では,デブレア4DGSは,デブロアリング,フレーム合成,ビデオ安定化など,多面的な視点からぼやけた映像を改善するために応用できる。
論文参考訳（メタデータ） (2024-12-09T12:02:11Z)
Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly Training for 4D Reconstruction [12.111389926333592]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度化されたガウスを常に更新する。そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。提案手法は,オンライン4次元再構成における最先端性能を実現し,実時間トレーニング速度の20%向上,表現品質の向上,リアルタイムレンダリング能力の向上を実証する。
論文参考訳（メタデータ） (2024-11-22T10:47:47Z)
S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文参考訳（メタデータ） (2024-08-23T12:51:49Z)
DeFlow: Decoder of Scene Flow Network in Autonomous Driving [19.486167661795797]
シーンフロー推定は、シーン内のポイントの運動を予測することによって、シーンの3次元運動場を決定する。入力として大規模な点雲を持つ多くのネットワークは、リアルタイム実行のための擬似イメージを作成するためにボキセル化を使用する。本稿では, Gated Recurrent Unit (GRU) の改良により, ボクセルをベースとした特徴から点への遷移を可能にするDeFlowを紹介した。
論文参考訳（メタデータ） (2024-01-29T12:47:55Z)
Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文参考訳（メタデータ） (2024-01-12T15:05:08Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer [28.719098240737605]
我々はX4D-SceneFormerと呼ばれる新しいクロスモーダルな知識伝達フレームワークを提案する。時間的関係マイニングを備えたTransformerアーキテクチャを用いて、RGBシーケンスからテクスチャ先行を転送することで、4Dシーン理解を強化する。様々な4Dポイントクラウドビデオ理解タスクにおいて,我々のフレームワークの優れた性能を示す実験を行った。
論文参考訳（メタデータ） (2023-12-12T15:48:12Z)
NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文参考訳（メタデータ） (2022-10-28T07:11:05Z)
Learning Spatial and Temporal Variations for 4D Point Cloud Segmentation [0.39373541926236766]
フレーム間の時間的情報は3次元シーンの知覚に重要な知識をもたらすと我々は主張する。本研究では,4次元点雲の時間変動を捉えるために,時間変動対応モジュールと時間変化対応のボクセル点精製器を設計する。
論文参考訳（メタデータ） (2022-07-11T07:36:26Z)
DS-Net: Dynamic Spatiotemporal Network for Video Salient Object Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-09T06:42:30Z)
A Real-time Action Representation with Temporal Encoding and Deep Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。 T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文参考訳（メタデータ） (2020-06-17T06:30:43Z)
V4D:4D Convolutional Neural Networks for Video-level Representation Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。 4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。 V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文参考訳（メタデータ） (2020-02-18T09:27:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。