論文の概要: 4D-Former: Multimodal 4D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2311.01520v1
- Date: Thu, 2 Nov 2023 18:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:14:34.871332
- Title: 4D-Former: Multimodal 4D Panoptic Segmentation
- Title(参考訳): 4Dフォーマー:マルチモーダル4Dパノプティカルセグメンテーション
- Authors: Ali Athar, Enxu Li, Sergio Casas, Raquel Urtasun
- Abstract要約: 4D-Former: LiDARと画像モダリティの両方を用いた4Dパノプティクスセグメンテーションの新しい手法を提案する。
我々は、両方のデータモダリティの特徴情報を吸収する簡潔なクエリセットを用いて、セマンティッククラスとオブジェクトをエンコードする。
4D-FormerをnuScenesおよびSemanticKITTIデータセットに適用し、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 41.235165076983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D panoptic segmentation is a challenging but practically useful task that
requires every point in a LiDAR point-cloud sequence to be assigned a semantic
class label, and individual objects to be segmented and tracked over time.
Existing approaches utilize only LiDAR inputs which convey limited information
in regions with point sparsity. This problem can, however, be mitigated by
utilizing RGB camera images which offer appearance-based information that can
reinforce the geometry-based LiDAR features. Motivated by this, we propose
4D-Former: a novel method for 4D panoptic segmentation which leverages both
LiDAR and image modalities, and predicts semantic masks as well as temporally
consistent object masks for the input point-cloud sequence. We encode semantic
classes and objects using a set of concise queries which absorb feature
information from both data modalities. Additionally, we propose a learned
mechanism to associate object tracks over time which reasons over both
appearance and spatial location. We apply 4D-Former to the nuScenes and
SemanticKITTI datasets where it achieves state-of-the-art results.
- Abstract(参考訳): 4Dパノプティックセグメンテーションは、意味クラスラベルに割り当てられるLiDARポイントクラウドシーケンスのすべてのポイントと、時間とともにセグメント化され、追跡される個々のオブジェクトを必要とする、困難だが実用的なタスクである。
既存のアプローチでは、ポイント間隔のある領域で限られた情報を伝えるLiDAR入力のみを使用する。
しかし、この問題は、幾何学に基づくLiDAR機能を強化する外観情報を提供するRGBカメラ画像を利用することで緩和することができる。
そこで本研究では4D-Formerを提案する。LiDARと画像モダリティを両立させ,セマンティックマスクと時間的に一貫したオブジェクトマスクを入力ポイントクラウドシーケンスに対して予測する4D-Formerを提案する。
両データモダリティの特徴情報を吸収する一連の簡潔なクエリを用いて,セマンティッククラスとオブジェクトをエンコードする。
さらに,物体の軌跡を時間とともに関連付ける学習機構を提案する。
4D-FormerをnuScenesおよびSemanticKITTIデータセットに適用し、最先端の結果を得る。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Interactive4D: Interactive 4D LiDAR Segmentation [13.517667641865764]
既存のアプローチでは、各LiDARスキャンで個々のオブジェクトをシーケンシャルに分割し、シーケンス全体を通してプロセスを繰り返す。
我々は,複数のLiDARスキャン上に複数のオブジェクトを同時に分割できる新しいパラダイムであるインタラクティブ4Dセグメンテーションと,重畳された連続LiDARスキャン上に複数のオブジェクトを1回に分割する対話型4Dセグメンテーションモデルであるインタラクティブ4Dを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:45Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation [14.469317161361202]
補助情報なしで純粋なRGB画像で訓練できる6次元オブジェクトポーズ推定法を提案する。
提案手法を3つの挑戦的データセット上で評価し,最先端の自己管理手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-19T13:52:18Z) - Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud
Sequence Representation Learning [14.033085586047799]
本稿では, 完全-部分4次元蒸留法という, 4次元自己教師型事前学習法を提案する。
我々の鍵となる考え方は、4次元自己教師型表現学習を教師主導の知識蒸留フレームワークとして定式化することである。
実験により、この手法は、幅広い4Dポイントクラウドシークエンス理解タスクにおいて、以前の事前学習アプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-12-10T16:26:19Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - 4D-Net for Learned Multi-Modal Alignment [87.58354992455891]
本稿では,3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。
様々な特徴表現や抽象化レベルにまたがる新しい接続学習を行い、また幾何学的制約を観察することで、4D情報を組み込むことができる。
論文 参考訳(メタデータ) (2021-09-02T16:35:00Z) - 4D Panoptic LiDAR Segmentation [27.677435778317054]
意味クラスと時間的に一貫性のあるインスタンスIDを3Dポイントのシーケンスに割り当てる4DパノプティカルLiDARセグメンテーションを提案する。
マルチオブジェクトトラッキングのベンチマークの最近の進歩に触発され、タスクのセマンティクスとポイントツーインスタンスの関連を分離する新しい評価指標を採用することを提案する。
論文 参考訳(メタデータ) (2021-02-24T18:56:16Z) - Auto4D: Learning to Label 4D Objects from Sequential Point Clouds [89.30951657004408]
LiDAR点群から3次元空間に正確な物体軌道を生成する自動パイプラインを提案する。
鍵となるアイデアは、4Dオブジェクトラベルを2つの部分に分解することです。リジッドオブジェクトに対して時間を通して固定される3Dのオブジェクトサイズと、オブジェクトのポーズの進化を記述するモーションパスです。
安価だがノイズの多い入力を想定し,オブジェクトサイズを再推定し,動作経路を平滑化することにより,高品質な4dラベルを生成する。
論文 参考訳(メタデータ) (2021-01-17T04:23:05Z) - 3D Guided Weakly Supervised Semantic Segmentation [27.269847900950943]
本稿では,スパース境界ボックスラベルを利用可能な3次元情報に組み込むことにより,弱教師付き2次元セマンティックセマンティックセマンティックセマンティクスモデルを提案する。
手動で2D-3Dセマンティックス(2D-3D-S)データセットのサブセットにバウンディングボックスをラベル付けし、2D-3D推論モジュールを導入し、正確なピクセルワイドセグメント提案マスクを生成する。
論文 参考訳(メタデータ) (2020-12-01T03:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。