論文の概要: Zero-Shot 4D Lidar Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2504.00848v1
- Date: Tue, 01 Apr 2025 14:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:52.615947
- Title: Zero-Shot 4D Lidar Panoptic Segmentation
- Title(参考訳): Zero-Shot 4D Lidar Panoptic Segmentation
- Authors: Yushan Zhang, Aljoša Ošep, Laura Leal-Taixé, Tim Meinhardt,
- Abstract要約: SAL-4D(Segment Anything in Lidar--4D)は,市販のヴィジュアル・ランゲージ基礎モデルとともにビデオショットオブジェクト(VOS)の開発をLidarに蒸留する手法である。
我々はVOSモデルを用いて、短いビデオシーケンスの擬似ラベルトラックレット、シークエンスレベルのCLIPシークエンスを持つトラックレットを4D Lidar空間に持ち上げ、マルチモーダルセンシング装置を用いてそれらをSAL-4Dモデルに蒸留する。
- 参考スコア(独自算出の注目度): 29.890320914994064
- License:
- Abstract: Zero-shot 4D segmentation and recognition of arbitrary objects in Lidar is crucial for embodied navigation, with applications ranging from streaming perception to semantic mapping and localization. However, the primary challenge in advancing research and developing generalized, versatile methods for spatio-temporal scene understanding in Lidar lies in the scarcity of datasets that provide the necessary diversity and scale of annotations.To overcome these challenges, we propose SAL-4D (Segment Anything in Lidar--4D), a method that utilizes multi-modal robotic sensor setups as a bridge to distill recent developments in Video Object Segmentation (VOS) in conjunction with off-the-shelf Vision-Language foundation models to Lidar. We utilize VOS models to pseudo-label tracklets in short video sequences, annotate these tracklets with sequence-level CLIP tokens, and lift them to the 4D Lidar space using calibrated multi-modal sensory setups to distill them to our SAL-4D model. Due to temporal consistent predictions, we outperform prior art in 3D Zero-Shot Lidar Panoptic Segmentation (LPS) over $5$ PQ, and unlock Zero-Shot 4D-LPS.
- Abstract(参考訳): Lidarにおける任意のオブジェクトのゼロショット4Dセグメンテーションと認識は、ストリーミング認識からセマンティックマッピング、ローカライゼーションに至るまで、ナビゲーションの具体化に不可欠である。
しかし,Lidarにおける時空間理解のための汎用的,汎用的な手法の開発における主な課題は,必要な多様性とアノテーションの規模を提供するデータセットの不足にある。これらの課題を克服するために,映像オブジェクトセグメンテーション(VOS)の最近の発展を補う橋としてマルチモーダルロボットセンサのセットアップを利用するSAL-4D(Segment Anything in Lidar--4D)を提案する。
我々は、VOSモデルを用いて、短いビデオシーケンスで擬似ラベルトラックレットを作成し、これらのトラックレットにシークエンスレベルのCLIPトークンをアノテートし、4D Lidar空間に引き上げ、キャリブレーションされたマルチモーダル感覚装置を用いてそれらをSAL-4Dモデルに蒸留する。
時間的一貫した予測のため、3D Zero-Shot Lidar Panoptic Segmentation (LPS) において5ドルPQで先行技術より優れ、Zero-Shot 4D-LPSをアンロックする。
関連論文リスト
- Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - Interactive4D: Interactive 4D LiDAR Segmentation [13.517667641865764]
既存のアプローチでは、各LiDARスキャンで個々のオブジェクトをシーケンシャルに分割し、シーケンス全体を通してプロセスを繰り返す。
我々は,複数のLiDARスキャン上に複数のオブジェクトを同時に分割できる新しいパラダイムであるインタラクティブ4Dセグメンテーションと,重畳された連続LiDARスキャン上に複数のオブジェクトを1回に分割する対話型4Dセグメンテーションモデルであるインタラクティブ4Dを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:45Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - 4D Panoptic Scene Graph Generation [102.22082008976228]
ダイナミックな4次元世界において知覚される生の視覚データをブリッジし,高レベルの視覚的理解を実現する新しい表現である4D Panoptic Scene Graph (PSG-4D)を紹介する。
具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。
そこで我々は,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーベースのモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを生成する。
論文 参考訳(メタデータ) (2024-05-16T17:56:55Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - Better Call SAL: Towards Learning to Segment Anything in Lidar [63.9984147657437]
本稿では,Lidar内の任意のオブジェクトをセグメント化,分類するためのテキストプロンプト可能なゼロショットモデルを提案する。
擬似ラベルを用いて2次元視覚基盤モデルを用いて3次元の3次元監督を無償で生成する。
我々のモデルは、クラスに依存しない点では91%、ゼロショットのLidar Panopticonでは54%である。
論文 参考訳(メタデータ) (2024-03-19T19:58:54Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - 4D-StOP: Panoptic Segmentation of 4D LiDAR using Spatio-temporal Object
Proposal Generation and Aggregation [21.95468697806962]
我々は4DパノプティカルLiDARの課題に取り組むために、4D-StOPと呼ばれる新しいパラダイムを提案する。
4D-StOPは投票に基づく中心予測を用いて提案を生成する。
トラックレットアグリゲーション法は、時空ボリューム全体にわたって映像レベル4Dシーン表現を効果的に生成する。
論文 参考訳(メタデータ) (2022-09-29T15:22:21Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。