Fugu-MT 論文翻訳(概要): Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation

論文の概要: Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation

arxiv url: http://arxiv.org/abs/2106.15277v1
Date: Mon, 21 Jun 2021 10:47:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-04 19:46:27.757177
Title: Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation
Title（参考訳）: 3次元LiDARセマンティックセグメンテーションのための知覚認識型マルチセンサフュージョン
Authors: Zhuangwei Zhuang, Rong Li, Yuanqing Li, Kui Jia, Qicheng Wang, Mingkui Tan
Abstract要約: 3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
参考スコア（独自算出の注目度）: 59.42262859654698
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D LiDAR (light detection and ranging) based semantic segmentation is important in scene understanding for many applications, such as auto-driving and robotics. For example, for autonomous cars equipped with RGB cameras and LiDAR, it is crucial to fuse complementary information from different sensors for robust and accurate segmentation. Existing fusion-based methods, however, may not achieve promising performance due to the vast difference between two modalities. In this work, we investigate a collaborative fusion scheme called perception-aware multi-sensor fusion (PMF) to exploit perceptual information from two modalities, namely, appearance information from RGB images and spatio-depth information from point clouds. To this end, we first project point clouds to the camera coordinates to provide spatio-depth information for RGB images. Then, we propose a two-stream network to extract features from the two modalities, separately, and fuse the features by effective residual-based fusion modules. Moreover, we propose additional perception-aware losses to measure the great perceptual difference between the two modalities. Extensive experiments on two benchmark data sets show the superiority of our method. For example, on nuScenes, our PMF outperforms the state-of-the-art method by 0.8% in mIoU.
Abstract（参考訳）: 3dlidar(light detection and ranging)ベースのセマンティックセグメンテーションは、自動運転やロボティクスなど、多くのアプリケーションのシーン理解において重要である。例えば、RGBカメラとLiDARを備えた自動運転車では、さまざまなセンサーから補完情報を融合して、堅牢で正確なセグメンテーションを行うことが不可欠である。しかし、既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない可能性がある。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討し,RGB画像からの外観情報と点雲からの空間深度情報という2つのモードからの知覚情報を利用する。この目的のために、最初にカメラ座標に点雲を投影し、RGB画像の空間深度情報を提供する。そこで本研究では,2つのモダリティから特徴を分離して抽出し,その特徴を効果的な残留型融合モジュールで融合する2ストリームネットワークを提案する。さらに,この2つのモードの知覚的差異を計測するために,追加の知覚認識損失を提案する。 2つのベンチマークデータセットに対する大規模な実験は,本手法の優位性を示している。例えば、nuScenesでは、PMFはmIoUで最先端の手法よりも0.8%優れています。

関連論文リスト

Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文参考訳（メタデータ） (2024-10-09T22:57:47Z)
E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。 E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文参考訳（メタデータ） (2024-03-14T12:12:17Z)
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文参考訳（メタデータ） (2023-07-18T11:26:02Z)
Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文参考訳（メタデータ） (2023-05-20T17:01:52Z)
FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。 2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文参考訳（メタデータ） (2022-09-15T16:13:19Z)
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。 KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文参考訳（メタデータ） (2021-12-21T10:48:34Z)
MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文参考訳（メタデータ） (2021-08-29T15:40:15Z)
Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。 SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文参考訳（メタデータ） (2021-07-04T09:28:18Z)
Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文参考訳（メタデータ） (2020-11-02T00:06:01Z)
Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。アーキテクチャ全体が2段階の融合を促進する。 KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文参考訳（メタデータ） (2020-08-16T11:01:20Z)
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文参考訳（メタデータ） (2020-07-14T04:40:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。