Fugu-MT 論文翻訳(概要): Fisheye Camera and Ultrasonic Sensor Fusion For Near-Field Obstacle Perception in Bird's-Eye-View

論文の概要: Fisheye Camera and Ultrasonic Sensor Fusion For Near-Field Obstacle Perception in Bird's-Eye-View

arxiv url: http://arxiv.org/abs/2402.00637v1
Date: Thu, 1 Feb 2024 14:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 15:00:10.872822
Title: Fisheye Camera and Ultrasonic Sensor Fusion For Near-Field Obstacle Perception in Bird's-Eye-View
Title（参考訳）: 魚眼カメラと超音波センサーによる鳥の視界近傍の障害物認識
Authors: Arindam Das, Sudarshan Paul, Niko Scholz, Akhilesh Kumar Malviya, Ganesh Sistu, Ujjwal Bhattacharya, and Ciar\'an Eising
Abstract要約: 本稿では,鳥眼ビュー(BEV)の観点からの効率的な障害物認識に適した,エンド・ツー・エンドのマルチモーダル融合モデルを提案する。魚眼カメラは、後部障害物の定位を含む包括的サラウンドビューの知覚によく使用される。しかし、このようなカメラの性能は、夜間の低照度、強烈な太陽の輝きにさらされた場合、著しく劣化する可能性がある。
参考スコア（独自算出の注目度）: 4.536942273206611
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate obstacle identification represents a fundamental challenge within the scope of near-field perception for autonomous driving. Conventionally, fisheye cameras are frequently employed for comprehensive surround-view perception, including rear-view obstacle localization. However, the performance of such cameras can significantly deteriorate in low-light conditions, during nighttime, or when subjected to intense sun glare. Conversely, cost-effective sensors like ultrasonic sensors remain largely unaffected under these conditions. Therefore, we present, to our knowledge, the first end-to-end multimodal fusion model tailored for efficient obstacle perception in a bird's-eye-view (BEV) perspective, utilizing fisheye cameras and ultrasonic sensors. Initially, ResNeXt-50 is employed as a set of unimodal encoders to extract features specific to each modality. Subsequently, the feature space associated with the visible spectrum undergoes transformation into BEV. The fusion of these two modalities is facilitated via concatenation. At the same time, the ultrasonic spectrum-based unimodal feature maps pass through content-aware dilated convolution, applied to mitigate the sensor misalignment between two sensors in the fused feature space. Finally, the fused features are utilized by a two-stage semantic occupancy decoder to generate grid-wise predictions for precise obstacle perception. We conduct a systematic investigation to determine the optimal strategy for multimodal fusion of both sensors. We provide insights into our dataset creation procedures, annotation guidelines, and perform a thorough data analysis to ensure adequate coverage of all scenarios. When applied to our dataset, the experimental results underscore the robustness and effectiveness of our proposed multimodal fusion approach.
Abstract（参考訳）: 正確な障害物識別は、自動運転における近接場認識の領域における根本的な課題である。従来、魚眼カメラは、後部障害物の定位を含む包括的サラウンドビューの知覚によく使用される。しかし、このようなカメラの性能は、夜間の低照度、強烈な日光にさらされた場合、著しく劣化する可能性がある。逆に、超音波センサーのようなコスト効率のよいセンサーは、これらの条件下ではほとんど影響を受けない。そこで本研究では,魚眼カメラと超音波センサを用いて,鳥眼ビュー(BEV)の観点からの効率的な障害物認識に適した,最初のエンドツーエンドのマルチモーダル融合モデルを提案する。当初、resnext-50はユニモーダルエンコーダの集合として用いられ、各モダリティ特有の特徴を抽出する。その後、可視スペクトルに関連する特徴空間がBEVに変換される。これら2つのモダリティの融合は連結によって促進される。同時に、超音波スペクトルに基づく一方向特徴写像は、コンテントを意識した拡張畳み込みを通し、融合特徴空間内の2つのセンサ間のセンサの不整合を緩和する。最後に、融合した特徴を2段階のセマンティック占有デコーダで利用し、正確な障害物知覚のためのグリッドワイズ予測を生成する。両センサのマルチモーダル融合の最適戦略を決定するための体系的調査を行う。データセット作成手順やガイドラインに関する洞察を提供し、すべてのシナリオの適切なカバレッジを確保するために、詳細なデータ分析を行います。このデータセットに適用した場合,提案手法の堅牢性と有効性を示す実験結果が得られた。

関連論文リスト

FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
MAROON: A Framework for the Joint Characterization of Near-Field High-Resolution Radar and Optical Depth Imaging Techniques [4.816237933371206]
我々は、光学領域と電波領域の両方から深度イメージを特徴付けるというユニークな課題に挑戦する。本研究では, 対象物, ジオメトリー, 物体間距離について, 深度測定の総合的な評価を行う。すべてのオブジェクトの測定は、MAROONと呼ばれるマルチモーダルデータセットとして公開されます。
論文参考訳（メタデータ） (2024-11-01T11:53:10Z)
Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a Light-Weight ToF Sensor [58.305341034419136]
単眼カメラと軽量ToFセンサを備えた初の高密度SLAMシステムを提案する。本稿では,RGBカメラと軽量ToFセンサの両方の信号のレンダリングをサポートするマルチモーダル暗黙のシーン表現を提案する。実験により,本システムは軽量なToFセンサの信号をうまく利用し,競合的な結果が得られることが示された。
論文参考訳（メタデータ） (2023-08-28T07:56:13Z)
DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars [2.2166853714891057]
本研究では,ライダー,カメラ,レーダーを異なる組み合わせで融合して3次元物体検出を行うモジュール型マルチモーダルアーキテクチャを提案する。特殊特徴抽出器は各モードの利点を生かし、容易に交換でき、アプローチをシンプルかつ柔軟にする。 Lidar-camera, lidar-camera-radar, camera-radar fusion の実験結果から, 融合法の柔軟性と有効性が確認された。
論文参考訳（メタデータ） (2022-09-26T14:33:30Z)
Drone Detection and Tracking in Real-Time by Fusion of Different Sensing Modalities [66.4525391417921]
マルチセンサ・ドローン検知システムの設計と評価を行う。われわれのソリューションは、魚眼カメラを統合し、空の広い部分を監視し、他のカメラを興味ある対象に向けて操縦する。このサーマルカメラは、たとえこのカメラが解像度が低いとしても、ビデオカメラと同じくらい実現可能なソリューションであることが示されている。
論文参考訳（メタデータ） (2022-07-05T10:00:58Z)
On Learning the Invisible in Photoacoustic Tomography with Flat Directionally Sensitive Detector [0.27074235008521236]
本稿では,センサの入射波面方向に対する感度の変化に起因する第2のタイプに着目した。画像領域とデータ領域における可視範囲は、波面方向マッピングによって関連付けられる。我々は、高速な近似演算子と調整された深層ニューラルネットワークアーキテクチャを最適に組み合わせて、効率的な学習的再構成手法を提案する。
論文参考訳（メタデータ） (2022-04-21T09:57:01Z)
Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文参考訳（メタデータ） (2022-03-30T11:44:56Z)
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。 TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文参考訳（メタデータ） (2022-03-22T07:15:13Z)
LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文参考訳（メタデータ） (2021-08-17T08:53:11Z)
GenRadar: Self-supervised Probabilistic Camera Synthesis based on Radar Frequencies [12.707035083920227]
この研究は、確率的シーン再構築のための独自の自己学習融合アプローチにおいて、両方のセンサタイプの相補的な強度を組み合わせる。提案アルゴリズムは類似性を生かし、訓練中に異なる特徴レベルで両方のドメイン間の対応を確立する。これらの離散トークンは、最終的にそれぞれの周囲のインストラクティブなビューに変換され、潜在的な危険を視覚的に知覚することができる。
論文参考訳（メタデータ） (2021-07-19T15:00:28Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。