論文の概要: AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis
- arxiv url: http://arxiv.org/abs/2402.17483v1
- Date: Tue, 27 Feb 2024 13:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:26:25.077240
- Title: AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera
Joint Synthesis
- Title(参考訳): AlignMiF:LiDAR-Camera結合合成のための幾何配向多モードインピーダンス場
- Authors: Tao Tang, Guangrun Wang, Yixing Lao, Peng Chen, Jie Liu, Liang Lin,
Kaicheng Yu, Xiaodan Liang
- Abstract要約: 近年,複数のモダリティを単一のフィールド内で探索する手法がいくつか存在しており,異なるモダリティから暗黙的な特徴を共有して再現性能を向上させることを目的としている。
本研究では,LiDAR-カメラ共同合成の多モード暗黙的場に関する包括的解析を行い,その根底にある問題はセンサの誤配にあることを示した。
幾何学的に整合した多モード暗黙の場であるAlignMiFを導入し,2つのモジュール,Geometry-Aware Alignment (GAA) とShared Geometry Initialization (SGI)を提案する。
- 参考スコア(独自算出の注目度): 98.3959800235485
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural implicit fields have been a de facto standard in novel view synthesis.
Recently, there exist some methods exploring fusing multiple modalities within
a single field, aiming to share implicit features from different modalities to
enhance reconstruction performance. However, these modalities often exhibit
misaligned behaviors: optimizing for one modality, such as LiDAR, can adversely
affect another, like camera performance, and vice versa. In this work, we
conduct comprehensive analyses on the multimodal implicit field of LiDAR-camera
joint synthesis, revealing the underlying issue lies in the misalignment of
different sensors. Furthermore, we introduce AlignMiF, a geometrically aligned
multimodal implicit field with two proposed modules: Geometry-Aware Alignment
(GAA) and Shared Geometry Initialization (SGI). These modules effectively align
the coarse geometry across different modalities, significantly enhancing the
fusion process between LiDAR and camera data. Through extensive experiments
across various datasets and scenes, we demonstrate the effectiveness of our
approach in facilitating better interaction between LiDAR and camera modalities
within a unified neural field. Specifically, our proposed AlignMiF, achieves
remarkable improvement over recent implicit fusion methods (+2.01 and +3.11
image PSNR on the KITTI-360 and Waymo datasets) and consistently surpasses
single modality performance (13.8% and 14.2% reduction in LiDAR Chamfer
Distance on the respective datasets).
- Abstract(参考訳): ニューラル暗黙的場は、新しいビュー合成におけるデファクトスタンダードである。
近年,一つのフィールド内で複数のモダリティを融合し,異なるモダリティから暗黙的な特徴を共有する手法が提案されている。
しかし、これらのモダリティは、LiDARのような1つのモダリティを最適化することは、カメラ性能のような他のモダリティに悪影響を及ぼし、その逆も起こり得る。
本研究では,lidar-camera関節合成のマルチモーダル暗黙的場に関する包括的解析を行い,異なるセンサの不一致が問題点であることを明らかにした。
さらに,2つのモジュール(GAA)と共有幾何初期化(SGI)という,幾何学的に整合した多モード暗黙フィールドであるAlignMiFを紹介する。
これらのモジュールは、異なるモード間で粗い幾何学を効果的に整列させ、LiDARとカメラデータの融合プロセスを大幅に強化する。
様々なデータセットやシーンにわたる広範な実験を通じて、統一されたニューラルネットワーク内でのLiDARとカメラモダリティの相互作用を改善するためのアプローチの有効性を実証する。
具体的には,最近の暗黙融合法(KITTI-360およびWaymoデータセットにおける+2.01および+3.11画像PSNR)に対する顕著な改善を実現し,各データセットにおけるLiDARチャンファー距離の13.8%と14.2%の低減)を一貫して上回っている。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Explore the LiDAR-Camera Dynamic Adjustment Fusion for 3D Object Detection [38.809645060899065]
カメラとLiDARは、正確で堅牢な自動運転システムの情報センサーとして機能する。
これらのセンサーは、しばしば異質な性質を示し、分布のモダリティギャップをもたらす。
モーダル分布の整合と効果的なモーダル表現の学習を目的とした動的調整技術を導入する。
論文 参考訳(メタデータ) (2024-07-22T02:42:15Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - Towards Scalable Multi-View Reconstruction of Geometry and Materials [27.660389147094715]
本稿では,3次元シーンのカメラポーズ,オブジェクト形状,空間変化の両方向反射分布関数(svBRDF)のジョイントリカバリ手法を提案する。
入力は高解像度のRGBD画像であり、アクティブ照明用の点灯付き携帯型ハンドヘルドキャプチャシステムによってキャプチャされる。
論文 参考訳(メタデータ) (2023-06-06T15:07:39Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - AVIDA: Alternating method for Visualizing and Integrating Data [1.6637373649145604]
AVIDAはデータアライメントと次元削減を同時に行うためのフレームワークである。
AVIDAは特徴のない高次元データセットを正しく整列することを示す。
一般の応用では、アライメントおよび次元減少加群に他の方法を用いることができる。
論文 参考訳(メタデータ) (2022-05-31T22:36:10Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。