論文の概要: 4D-StOP: Panoptic Segmentation of 4D LiDAR using Spatio-temporal Object
Proposal Generation and Aggregation
- arxiv url: http://arxiv.org/abs/2209.14858v1
- Date: Thu, 29 Sep 2022 15:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:31:42.093582
- Title: 4D-StOP: Panoptic Segmentation of 4D LiDAR using Spatio-temporal Object
Proposal Generation and Aggregation
- Title(参考訳): 4D-StOP:時空間オブジェクト生成とアグリゲーションを用いた4次元LiDARの光学分割
- Authors: Lars Kreuzberg, Idil Esen Zulfikar, Sabarinath Mahadevan, Francis
Engelmann, Bastian Leibe
- Abstract要約: 我々は4DパノプティカルLiDARの課題に取り組むために、4D-StOPと呼ばれる新しいパラダイムを提案する。
4D-StOPは投票に基づく中心予測を用いて提案を生成する。
トラックレットアグリゲーション法は、時空ボリューム全体にわたって映像レベル4Dシーン表現を効果的に生成する。
- 参考スコア(独自算出の注目度): 21.95468697806962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a new paradigm, called 4D-StOP, to tackle the task
of 4D Panoptic LiDAR Segmentation. 4D-StOP first generates spatio-temporal
proposals using voting-based center predictions, where each point in the 4D
volume votes for a corresponding center. These tracklet proposals are further
aggregated using learned geometric features. The tracklet aggregation method
effectively generates a video-level 4D scene representation over the entire
space-time volume. This is in contrast to existing end-to-end trainable
state-of-the-art approaches which use spatio-temporal embeddings that are
represented by Gaussian probability distributions. Our voting-based tracklet
generation method followed by geometric feature-based aggregation generates
significantly improved panoptic LiDAR segmentation quality when compared to
modeling the entire 4D volume using Gaussian probability distributions. 4D-StOP
achieves a new state-of-the-art when applied to the SemanticKITTI test dataset
with a score of 63.9 LSTQ, which is a large (+7%) improvement compared to
current best-performing end-to-end trainable methods. The code and pre-trained
models are available at: https://github.com/LarsKreuzberg/4D-StOP.
- Abstract(参考訳): 本研究では,4dパンオプティカルlidarセグメンテーションの課題に取り組むための新しいパラダイムである4dストップを提案する。
4D-StOPは、まず投票に基づく中心予測を用いて時空間の時空間的提案を生成する。
これらのトラックレットの提案は、学習した幾何学的特徴を用いてさらに集約される。
トラックレット集約法は、時間ボリューム全体にわたって映像レベル4dシーン表現を効果的に生成する。
これは、ガウス確率分布で表される時空間埋め込みを使用する既存のエンドツーエンドのトレーニング可能な最先端のアプローチとは対照的である。
投票に基づくトラックレット生成法と幾何的特徴に基づくアグリゲーションにより,ガウス確率分布を用いた4Dボリューム全体をモデル化した場合に比べて,汎視的LiDARセグメンテーションの品質が大幅に向上した。
4d-stopは、semantickittiテストデータセットに適用した場合、63.9 lstqというスコアで、現在の最高のエンドツーエンドトレーニング可能な方法に比べて大きな(+7%)改善を達成している。
コードと事前トレーニングされたモデルは、https://github.com/LarsKreuzberg/4D-StOPで利用可能である。
関連論文リスト
- 4D Scaffold Gaussian Splatting for Memory Efficient Dynamic Scene Reconstruction [27.455934322535853]
ストレージコストを低減しつつ、4Dガウスの視覚的品質とレンダリング速度を維持する4Dアンカーベースのフレームワークを提案する。
実験結果から,4DGSよりも最先端の視覚的品質と97.8%のストレージ削減を実現した。
論文 参考訳(メタデータ) (2024-11-26T02:22:07Z) - S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。
この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。
従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。
我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。
ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文 参考訳(メタデータ) (2023-12-28T17:16:44Z) - Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal
Fusion [14.15155927539293]
Sparse4Dは,空間的時間的特徴をスパースサンプリングし,融合させることにより,アンカーボックスの繰り返し改良を行う。
実験では, nuScenesデータセットにおける検出タスクにおいて, スパース法およびほとんどのBEV法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-19T04:20:57Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。