論文の概要: CaRaFFusion: Improving 2D Semantic Segmentation with Camera-Radar Point Cloud Fusion and Zero-Shot Image Inpainting
- arxiv url: http://arxiv.org/abs/2505.03679v1
- Date: Tue, 06 May 2025 16:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.482198
- Title: CaRaFFusion: Improving 2D Semantic Segmentation with Camera-Radar Point Cloud Fusion and Zero-Shot Image Inpainting
- Title(参考訳): CaRaFFusion: カメラ・レーダー・ポイント・クラウド・フュージョンとゼロショット・イメージ・インペインティングによる2次元セマンティック・セマンティック・セグメンテーションの改善
- Authors: Huawei Sun, Bora Kunter Sahin, Georg Stettinger, Maximilian Bernhard, Matthias Schubert, Robert Wille,
- Abstract要約: 本稿では,拡散モデルをカメラレーダ融合アーキテクチャに統合することにより,カメラのみのベースラインを強化する新しいフレームワークを提案する。
レーダ点の特徴を活用して,Segment-Anythingモデルを用いて擬似マスクを作成し,投射されたレーダ点を点のプロンプトとして扱う。
提案手法は,mIoUにおけるカメラのみのセグメンテーションベースラインを2.63%改善し,Waterscenesデータセット上でのカメラとレーダーの融合アーキテクチャを1.48%向上させる。
- 参考スコア(独自算出の注目度): 4.432189918791907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting objects in an environment is a crucial task for autonomous driving and robotics, as it enables a better understanding of the surroundings of each agent. Although camera sensors provide rich visual details, they are vulnerable to adverse weather conditions. In contrast, radar sensors remain robust under such conditions, but often produce sparse and noisy data. Therefore, a promising approach is to fuse information from both sensors. In this work, we propose a novel framework to enhance camera-only baselines by integrating a diffusion model into a camera-radar fusion architecture. We leverage radar point features to create pseudo-masks using the Segment-Anything model, treating the projected radar points as point prompts. Additionally, we propose a noise reduction unit to denoise these pseudo-masks, which are further used to generate inpainted images that complete the missing information in the original images. Our method improves the camera-only segmentation baseline by 2.63% in mIoU and enhances our camera-radar fusion architecture by 1.48% in mIoU on the Waterscenes dataset. This demonstrates the effectiveness of our approach for semantic segmentation using camera-radar fusion under adverse weather conditions.
- Abstract(参考訳): 環境中の物体をセグメント化することは、自律走行とロボット工学にとって重要な課題であり、各エージェントの環境をよりよく理解することができる。
カメラセンサーは豊富な視覚的詳細を提供するが、悪天候に弱い。
対照的に、レーダーセンサーはそのような条件下では頑丈であるが、しばしばスパースでノイズの多いデータを生成する。
したがって、双方のセンサーから情報を融合させることが有望なアプローチである。
本研究では,拡散モデルをカメラレーダ融合アーキテクチャに統合することにより,カメラのみのベースラインを強化する新しいフレームワークを提案する。
レーダ点の特徴を活用して,Segment-Anythingモデルを用いて擬似マスクを作成し,投射されたレーダ点を点のプロンプトとして扱う。
さらに,これらの擬似マスクをデノマイズするノイズ低減装置を提案する。
提案手法は,mIoUにおけるカメラのみのセグメンテーションベースラインを2.63%改善し,Waterscenesデータセット上でのカメラとレーダーの融合アーキテクチャを1.48%向上させる。
本研究では,悪天候下でのカメラレーダ融合によるセマンティックセグメンテーションの有効性を示す。
関連論文リスト
- TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion [54.46664104437454]
一段核融合を用いた効率的かつ正確なレーダ・カメラ深度推定モデルであるTacoDepthを提案する。
具体的には、グラフベースのRadar構造抽出器とピラミッドベースのRadar融合モジュールを設計する。
従来の最先端のアプローチと比較して、TacoDepthは深さ精度と処理速度を12.8%、91.8%改善している。
論文 参考訳(メタデータ) (2025-04-16T05:25:04Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - A Resource Efficient Fusion Network for Object Detection in Bird's-Eye View using Camera and Raw Radar Data [7.2508100569856975]
レーダデータの生のレンジ・ドップラースペクトルを用いてカメラ画像を処理する。
カメラエンコーダデコーダアーキテクチャを用いて,対応する特徴を抽出する。
得られた特徴写像はレンジ・アジマス特徴と融合し、RDスペクトルから復元して物体検出を行う。
論文 参考訳(メタデータ) (2024-11-20T13:26:13Z) - DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection [0.7919810878571297]
デュアル・パースペクティブ・フュージョン・トランス (DPFT) と呼ばれる新しいカメラレーダ融合手法を提案する。
本手法では,処理された点雲の代わりに,低レベルのレーダデータ(レーダキューブ)を活用して,できるだけ多くの情報を保存する。
DPFTは、K-Radarデータセットの最先端性能を実証し、悪天候に対する顕著な堅牢性を示した。
論文 参考訳(メタデータ) (2024-04-03T18:54:27Z) - Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection [6.388430091498446]
レーダとカメラデータの整合性を向上する2つの新しいレーダ前処理手法を提案する。
また,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。
我々のアプローチは、nuScenesデータセットにおける現在の最先端のレーダーカメラフュージョンベースのオブジェクト検出器よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T09:26:13Z) - CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for
Robust 3D Object Detection [12.557361522985898]
本稿では,カメラとレーダーの読み取りを3次元空間に融合させるカメラレーダマッチングネットワークCramNetを提案する。
本手法は, カメラやレーダセンサが車両内で突然故障した場合においても, 頑健な3次元物体検出を実現するセンサモダリティ・ドロップアウトによるトレーニングを支援する。
論文 参考訳(メタデータ) (2022-10-17T17:18:47Z) - Extrinsic Camera Calibration with Semantic Segmentation [60.330549990863624]
本稿では,セグメンテーション情報を利用してパラメータ推定を自動化する,外部カメラキャリブレーション手法を提案する。
われわれのアプローチは、カメラのポーズの粗い初期測定と、車両に搭載されたライダーセンサーによる構築に依存している。
シミュレーションおよび実世界のデータを用いて,キャリブレーション結果の低誤差測定を行う。
論文 参考訳(メタデータ) (2022-08-08T07:25:03Z) - Drone Detection and Tracking in Real-Time by Fusion of Different Sensing
Modalities [66.4525391417921]
マルチセンサ・ドローン検知システムの設計と評価を行う。
われわれのソリューションは、魚眼カメラを統合し、空の広い部分を監視し、他のカメラを興味ある対象に向けて操縦する。
このサーマルカメラは、たとえこのカメラが解像度が低いとしても、ビデオカメラと同じくらい実現可能なソリューションであることが示されている。
論文 参考訳(メタデータ) (2022-07-05T10:00:58Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。