論文の概要: LiDAR-Camera Fusion for Video Panoptic Segmentation without Video Training
- arxiv url: http://arxiv.org/abs/2412.20881v1
- Date: Mon, 30 Dec 2024 11:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:02.719455
- Title: LiDAR-Camera Fusion for Video Panoptic Segmentation without Video Training
- Title(参考訳): LiDAR-Camera Fusion for Video Panoptic Segmentation without Video Training
- Authors: Fardin Ayar, Ehsan Javanmardi, Manabu Tsukada, Mahdi Javanmardi, Mohammad Rahmati,
- Abstract要約: 自動車用LiDARと画像データを融合させることにより, 汎視的セグメンテーションを向上する機能融合モジュールを提案する。
その結果,最大5点まで画像およびビデオパノプティクスのセグメンテーション評価の精度が向上した。
- 参考スコア(独自算出の注目度): 3.5418498524791766
- License:
- Abstract: Panoptic segmentation, which combines instance and semantic segmentation, has gained a lot of attention in autonomous vehicles, due to its comprehensive representation of the scene. This task can be applied for cameras and LiDAR sensors, but there has been a limited focus on combining both sensors to enhance image panoptic segmentation (PS). Although previous research has acknowledged the benefit of 3D data on camera-based scene perception, no specific study has explored the influence of 3D data on image and video panoptic segmentation (VPS).This work seeks to introduce a feature fusion module that enhances PS and VPS by fusing LiDAR and image data for autonomous vehicles. We also illustrate that, in addition to this fusion, our proposed model, which utilizes two simple modifications, can further deliver even more high-quality VPS without being trained on video data. The results demonstrate a substantial improvement in both the image and video panoptic segmentation evaluation metrics by up to 5 points.
- Abstract(参考訳): インスタンスとセマンティックセグメンテーションを組み合わせたパノプティクスセグメンテーションは、このシーンを包括的に表現していることから、自動運転車において多くの注目を集めている。
このタスクは、カメラとLiDARセンサーに適用できるが、両方のセンサーを組み合わせて画像パノプティクスセグメンテーション(PS)を強化することに限定的な焦点が当てられている。
従来の研究では、カメラによるシーン認識における3Dデータの有用性を認めているが、画像やビデオパノプティクスのセグメンテーション(VPS)に対する3Dデータの影響について具体的な研究は行われていない。
この研究は、LiDARと自動運転車の画像データを融合してPSとVPSを強化する機能融合モジュールの導入を目指している。
また,この融合に加えて,2つの簡単な修正を取り入れた提案モデルにより,ビデオデータでトレーニングを受けることなく,さらに高品質なVPを実現できることを示す。
その結果,最大5点まで画像およびビデオパノプティクスのセグメンテーション評価の精度が向上した。
関連論文リスト
- Kaninfradet3D:A Road-side Camera-LiDAR Fusion 3D Perception Model based on Nonlinear Feature Extraction and Intrinsic Correlation [7.944126168010804]
AI支援運転の開発に伴い、エゴ車両の3D知覚タスクのための多くの手法が登場した。
グローバルな視点と広いセンシング範囲を提供する能力によって、道端の視点は発展する価値がある。
本稿では,特徴抽出と融合モジュールを最適化したKaninfradet3Dを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:28:42Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for
Camera-based 3D Object Detection [17.22491199725569]
VIC3Dは、車両と交通インフラの両方から多視点カメラを利用する。
我々は、新しい3Dオブジェクト検出フレームワーク、Vines-Infrastructure Multi-view Intermediate fusion (VIMI)を提案する。
VIMIは15.61%のAP_3Dと21.44%のAP_BEVを新しいVIC3DデータセットであるDAIR-V2X-Cで達成している。
論文 参考訳(メタデータ) (2023-03-20T09:56:17Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images [105.29493158036105]
PETRv2は、多視点画像からの3D知覚のための統一されたフレームワークである。
PETRの3次元位置埋め込みを時間的モデリングのために拡張する。
PETRv2は3Dオブジェクト検出とBEVセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T19:13:03Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Improving Semantic Segmentation through Spatio-Temporal Consistency
Learned from Videos [39.25927216187176]
我々は、深度、エゴモーション、カメラの内在性に関する教師なし学習を活用して、単一画像のセマンティックセマンティックセグメンテーションを改善する。
セグメンテーションモデルにさらなる監視信号を与えるために、予測深度、エゴモーション、カメラ内在性を用いている。
論文 参考訳(メタデータ) (2020-04-11T07:09:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。