論文の概要: Veila: Panoramic LiDAR Generation from a Monocular RGB Image
- arxiv url: http://arxiv.org/abs/2508.03690v1
- Date: Tue, 05 Aug 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.114172
- Title: Veila: Panoramic LiDAR Generation from a Monocular RGB Image
- Title(参考訳): Veila:単分子RGB画像からのパノラマLiDAR生成
- Authors: Youquan Liu, Lingdong Kong, Weidong Yang, Ao Liang, Jianxiong Gao, Yang Wu, Xiang Xu, Xin Li, Linfeng Li, Runnan Chen, Ben Fei,
- Abstract要約: 現実的で制御可能なパノラマLiDARデータ生成は、自律運転およびロボット工学におけるスケーラブルな3D知覚に不可欠である。
空間制御信号として単眼RGB画像を活用することは、スケーラブルで低コストな代替手段を提供する。
局所的な信頼性に応じて意味と深度を統合した新しい条件拡散フレームワークであるVeilaを提案する。
- 参考スコア(独自算出の注目度): 18.511014983119274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic and controllable panoramic LiDAR data generation is critical for scalable 3D perception in autonomous driving and robotics. Existing methods either perform unconditional generation with poor controllability or adopt text-guided synthesis, which lacks fine-grained spatial control. Leveraging a monocular RGB image as a spatial control signal offers a scalable and low-cost alternative, which remains an open problem. However, it faces three core challenges: (i) semantic and depth cues from RGB are vary spatially, complicating reliable conditioning generation; (ii) modality gaps between RGB appearance and LiDAR geometry amplify alignment errors under noisy diffusion; and (iii) maintaining structural coherence between monocular RGB and panoramic LiDAR is challenging, particularly in non-overlap regions between images and LiDAR. To address these challenges, we propose Veila, a novel conditional diffusion framework that integrates: a Confidence-Aware Conditioning Mechanism (CACM) that strengthens RGB conditioning by adaptively balancing semantic and depth cues according to their local reliability; a Geometric Cross-Modal Alignment (GCMA) for robust RGB-LiDAR alignment under noisy diffusion; and a Panoramic Feature Coherence (PFC) for enforcing global structural consistency across monocular RGB and panoramic LiDAR. Additionally, we introduce two metrics, Cross-Modal Semantic Consistency and Cross-Modal Depth Consistency, to evaluate alignment quality across modalities. Experiments on nuScenes, SemanticKITTI, and our proposed KITTI-Weather benchmark demonstrate that Veila achieves state-of-the-art generation fidelity and cross-modal consistency, while enabling generative data augmentation that improves downstream LiDAR semantic segmentation.
- Abstract(参考訳): 現実的で制御可能なパノラマLiDARデータ生成は、自律運転およびロボット工学におけるスケーラブルな3D知覚に不可欠である。
既存の方法は、制御性に乏しい無条件生成を行うか、微粒な空間制御を欠くテキスト誘導合成を採用するかのいずれかである。
単眼のRGB画像を空間制御信号として活用することは、スケーラブルで低コストな代替手段を提供するが、これは未解決の問題である。
しかし、それは3つの課題に直面している。
(i)RGBのセマンティクスと深度は空間的に変化しており、信頼性の高い条件付け生成が複雑である。
(II)RGB外観とLiDAR形状のモード差は、雑音拡散下でのアライメント誤差を増幅する。
三 単分子RGBとパノラマLiDARの構造的コヒーレンスを維持することは、特に画像とLiDARの間の非オーバーラップ領域において困難である。
これらの課題に対処するため,本研究では,RGBコンディショニングを局所的信頼性に応じて適応的にバランスさせることによりRGBコンディショニングを強化する信頼性・アウェア・コンディショニング機構 (CACM) ,ノイズ拡散下での堅牢なRGB-LiDARアライメントのための幾何学的クロスモーダルアライメント (GCMA) ,モノクラーRGBとパノラマLiDAR間のグローバルな構造整合性を実現するパノラマ特徴コヒーレンス (PFC) を新たに提案する。
さらに、モーダル間のアライメント品質を評価するために、クロスモーダルセマンティック一貫性とクロスモーダル深さ一貫性という2つの指標を導入する。
nuScenes, SemanticKITTI, and our proposed KITTI-Weather benchmarks showed that Veila achieves state-of-the-art generation fidelity and cross-modal consistency, while enabling generative data augmentation that improves downstream LiDAR semantic segmentation。
関連論文リスト
- Towards Generalized Range-View LiDAR Segmentation in Adverse Weather [65.22588361803942]
我々は、厳しい天候下でのLiDARセグメンテーションの一般化に影響を及ぼす固有の課題を特定し、分析する。
既存のモデルのコアアーキテクチャを変更することなく、ロバスト性を高めるモジュール式で軽量なフレームワークを提案する。
提案手法は,推定オーバーヘッドを最小限に抑え,悪天候への一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-06-10T16:48:27Z) - MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction [44.592566642185425]
MuDGはマルチモーダル拡散モデルとガウススプラッティング(GS)を統合した革新的なフレームワークである。
我々は,MDGが再現性および光現実性合成品質の両方において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-13T17:48:41Z) - RGB-Thermal Infrared Fusion for Robust Depth Estimation in Complex Environments [0.0]
本稿では,深度推定精度とロバスト性を向上させるマルチモーダル深度推定モデルRTFusionを提案する。
このモデルは、相互補完的アライメント(MCA)モジュールからなる独自の融合機構であるEGFusionを組み込んでいる。
MS2およびViViD++データセットの実験では、提案モデルが高品質な深度マップを一貫して生成していることが示されている。
論文 参考訳(メタデータ) (2025-03-05T01:35:14Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Blurred LiDAR for Sharper 3D: Robust Handheld 3D Scanning with Diffuse LiDAR and RGB [12.38882701862349]
3D表面の再構成は、仮想現実、ロボット工学、モバイルスキャンの応用において不可欠である。
RGBベースの再構築は、低テクスチャ、低照度、低アルベドシーンでしばしば失敗する。
我々は、拡散フラッシュを出力する代替のLiDARクラスを提案する。
論文 参考訳(メタデータ) (2024-11-29T05:01:23Z) - LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting [50.808933338389686]
都市景観におけるLiDARスキャンをリアルタイムかつ高忠実に再現するLiDAR-GSを提案する。
この手法は,公開可能な大規模シーンデータセットのレンダリングフレームレートと品質の両面において,最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-07T15:07:56Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction [72.30870535815258]
モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
論文 参考訳(メタデータ) (2020-04-22T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。