論文の概要: How Do Images Align and Complement LiDAR? Towards a Harmonized Multi-modal 3D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2505.18956v2
- Date: Tue, 10 Jun 2025 05:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.071514
- Title: How Do Images Align and Complement LiDAR? Towards a Harmonized Multi-modal 3D Panoptic Segmentation
- Title(参考訳): 画像のアライメントと補完LiDAR : 調和型マルチモーダル3Dパノプティクスセグメンテーションに向けて
- Authors: Yining Pan, Qiongjie Cui, Xulei Yang, Na Zhao,
- Abstract要約: LiDARベースの3Dパノプティクスセグメンテーションは、LiDARセンサーから得られるデータの空間性に苦慮することが多い。
近年の研究では、LiDAR入力とカメラ画像を統合することで、この課題を克服しようとしている。
我々は,新しいマルチモーダル3Dパノプティクス・セグメンテーション・フレームワークである Image-Assist-LiDAR (IAL) を提案する。
- 参考スコア(独自算出の注目度): 6.573268484692302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based 3D panoptic segmentation often struggles with the inherent sparsity of data from LiDAR sensors, which makes it challenging to accurately recognize distant or small objects. Recently, a few studies have sought to overcome this challenge by integrating LiDAR inputs with camera images, leveraging the rich and dense texture information provided by the latter. While these approaches have shown promising results, they still face challenges, such as misalignment during data augmentation and the reliance on post-processing steps. To address these issues, we propose Image-Assists-LiDAR (IAL), a novel multi-modal 3D panoptic segmentation framework. In IAL, we first introduce a modality-synchronized data augmentation strategy, PieAug, to ensure alignment between LiDAR and image inputs from the start. Next, we adopt a transformer decoder to directly predict panoptic segmentation results. To effectively fuse LiDAR and image features into tokens for the decoder, we design a Geometric-guided Token Fusion (GTF) module. Additionally, we leverage the complementary strengths of each modality as priors for query initialization through a Prior-based Query Generation (PQG) module, enhancing the decoder's ability to generate accurate instance masks. Our IAL framework achieves state-of-the-art performance compared to previous multi-modal 3D panoptic segmentation methods on two widely used benchmarks. Code and models are publicly available at <https://github.com/IMPL-Lab/IAL.git>.
- Abstract(参考訳): LiDARをベースとする3Dパノプティクスのセグメンテーションは、LiDARセンサーから得られるデータの空間性に悩まされることが多い。
近年、LiDAR入力をカメラ画像に統合し、後者が提供する豊かで密度の高いテクスチャ情報を活用することで、この課題を克服しようとする研究がいくつかある。
これらのアプローチは有望な結果を示しているが、データ拡張時の修正ミスや後処理ステップへの依存など、依然として課題に直面している。
これらの課題に対処するために,我々は,新しいマルチモーダル3Dパノプティブセグメンテーションフレームワークである Image-Assist-LiDAR (IAL) を提案する。
IALでは、まず、LiDARと画像入力との整合性を確保するために、モダリティ同期データ拡張戦略であるPieAugを導入する。
次に、コンバータデコーダを用いて、単視分割結果を直接予測する。
このデコーダのトークンにLiDARと画像特徴を効果的に融合させるため,Geometric-guided Token Fusion (GTF)モジュールを設計した。
さらに,各モダリティの相補的な長所を,プリエントベースクエリ生成(PQG)モジュールによるクエリ初期化の先行として活用し,デコーダの正確なインスタンスマスク生成能力を向上させる。
我々のIALフレームワークは,2つの広く使用されているベンチマークにおいて,従来のマルチモーダル3次元パノプティクスセグメンテーション法と比較して,最先端の性能を実現している。
コードとモデルは <https://github.com/IMPL-Lab/IAL.git> で公開されている。
関連論文リスト
- Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。
コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2025-03-05T09:30:49Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Gait Recognition in Large-scale Free Environment via Single LiDAR [35.684257181154905]
深度を捉えるLiDARの能力は、ロボットの知覚にとって重要な要素であり、現実世界の歩行認識の可能性を秘めている。
本稿では,頑健な歩行認識のための階層型多表現特徴相互作用ネットワーク(HMRNet)を提案する。
LiDARに基づく歩行認識研究を容易にするため,大規模かつ制約のない歩行データセットであるFreeGaitを紹介した。
論文 参考訳(メタデータ) (2022-11-22T16:05:58Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。