論文の概要: Single-Frame Point-Pixel Registration via Supervised Cross-Modal Feature Matching
- arxiv url: http://arxiv.org/abs/2506.22784v1
- Date: Sat, 28 Jun 2025 06:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.565494
- Title: Single-Frame Point-Pixel Registration via Supervised Cross-Modal Feature Matching
- Title(参考訳): 教師付きクロスモーダル特徴マッチングによる単一フレーム点線レジストレーション
- Authors: Yu Han, Zhiwei Huang, Yanting Zhang, Fangjun Ding, Shen Cai, Rui Fan,
- Abstract要約: 本稿では,LiDARとカメラビュー間の直接点画像マッチングのための検出不要フレームワークを提案する。
具体的には、LiDARインテンシティマップをLiDARの観点から2次元ビューに投影し、注意に基づくマッチングネットワークに入力する。
マッチングの信頼性をさらに高めるために,事前にソフトな可視性として機能する再現性スコアリング機構を導入する。
- 参考スコア(独自算出の注目度): 7.5461100059974315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-pixel registration between LiDAR point clouds and camera images is a fundamental yet challenging task in autonomous driving and robotic perception. A key difficulty lies in the modality gap between unstructured point clouds and structured images, especially under sparse single-frame LiDAR settings. Existing methods typically extract features separately from point clouds and images, then rely on hand-crafted or learned matching strategies. This separate encoding fails to bridge the modality gap effectively, and more critically, these methods struggle with the sparsity and noise of single-frame LiDAR, often requiring point cloud accumulation or additional priors to improve reliability. Inspired by recent progress in detector-free matching paradigms (e.g. MatchAnything), we revisit the projection-based approach and introduce the detector-free framework for direct point-pixel matching between LiDAR and camera views. Specifically, we project the LiDAR intensity map into a 2D view from the LiDAR perspective and feed it into an attention-based detector-free matching network, enabling cross-modal correspondence estimation without relying on multi-frame accumulation. To further enhance matching reliability, we introduce a repeatability scoring mechanism that acts as a soft visibility prior. This guides the network to suppress unreliable matches in regions with low intensity variation, improving robustness under sparse input. Extensive experiments on KITTI, nuScenes, and MIAS-LCEC-TF70 benchmarks demonstrate that our method achieves state-of-the-art performance, outperforming prior approaches on nuScenes (even those relying on accumulated point clouds), despite using only single-frame LiDAR.
- Abstract(参考訳): LiDARのポイントクラウドとカメライメージの間のポイントピクセルの登録は、自律運転とロボット知覚において基本的な課題である。
重要な問題は、未構造化の点雲と構造化された画像の間のモダリティギャップであり、特にスパース単一フレームのLiDAR設定下では。
既存の手法は通常、点雲と画像から特徴を別々に抽出し、手作りまたは学習されたマッチング戦略に依存する。
この分離されたエンコーディングは、モダリティギャップを効果的に埋めることに失敗し、より重要なことは、これらの手法が単一フレームのLiDARのスパーシリティとノイズに苦しむことである。
検出器レスマッチングのパラダイム(例えばMatchAnything)の最近の進歩に触発されて、プロジェクションベースアプローチを再検討し、LiDARとカメラビュー間の直接点画像マッチングのための検出器レスフレームワークを導入する。
具体的には、LiDARの2次元ビューにLiDARの強度マップを投影し、注意に基づくディテクターレスマッチングネットワークに入力し、マルチフレームの蓄積に頼ることなく、モーダル間対応推定を可能にする。
マッチングの信頼性をさらに高めるために,事前にソフトな可視性として機能する再現性スコアリング機構を導入する。
これにより,低強度領域における信頼性の低いマッチングが抑制され,スパース入力時の堅牢性が向上する。
KITTI, nuScenes, MIAS-LCEC-TF70ベンチマークの大規模な実験により, 単一フレームのLiDARのみを使用しながら, nuScenes(集積点の雲にも依存する人でさえ)の先行的アプローチよりも優れていることを示す。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - PAPI-Reg: Patch-to-Pixel Solution for Efficient Cross-Modal Registration between LiDAR Point Cloud and Camera Image [10.906218491083576]
クロスモーダルデータ融合は、異なるセンサーからのデータの正確なアライメントを含む。
カメラ画像とのマッチングのために,点雲を複数の2次元表現に投影するフレームワークを提案する。
画像マッチングタスクにおいて, クロスモーダル差とLiDAR点雲と画像との重複の制限に対処するために, マルチスケールの特徴抽出ネットワークを導入する。
論文 参考訳(メタデータ) (2025-03-19T15:04:01Z) - EdgeRegNet: Edge Feature-based Multimodal Registration Network between Images and LiDAR Point Clouds [10.324549723042338]
クロスモーダルなデータ登録は、長い間コンピュータビジョンにおいて重要な課題だった。
本稿では,原点雲と画像からのエッジ情報を用いたクロスモーダル登録手法を提案する。
提案手法をKITTIおよびnuScenesデータセット上で検証し,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-03-19T15:03:41Z) - LPRnet: A self-supervised registration network for LiDAR and photogrammetric point clouds [38.42527849407057]
LiDARとフォトグラムは、それぞれポイントクラウド取得のためのアクティブおよびパッシブリモートセンシング技術である。
感知機構、空間分布、座標系に根本的な違いがあるため、それらの点雲は密度、精度、ノイズ、重なり合いにおいて大きな違いを示す。
本稿では, マスク付きオートエンコーダをベースとした自己教師型登録ネットワークを提案し, 異種LiDARと光グラム点雲に着目した。
論文 参考訳(メタデータ) (2025-01-10T02:36:37Z) - A Consistency-Aware Spot-Guided Transformer for Versatile and Hierarchical Point Cloud Registration [9.609585217048664]
我々は整合性を考慮したスポット誘導変換器(CAST)を開発した。
CASTは、無関係な領域への干渉を避けるために、スポット誘導のクロスアテンションモジュールを組み込んでいる。
スパースキーポイントと高密度特徴の両方のための軽量な微細マッチングモジュールは、変換を正確に推定することができる。
論文 参考訳(メタデータ) (2024-10-14T08:48:25Z) - From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera
Fusion [12.792769704561024]
既存の融合法では、キャリブレーションに基づいて、各3Dポイントを1つの投影された画像ピクセルに調整する傾向がある。
本稿では,動的クロスアテンション(DCA)モジュールを提案する。
Dynamic Cross Attention Network (DCAN) という名称の核融合アーキテクチャは、マルチレベルイメージ機能を活用し、ポイントクラウドの複数の表現に適応する。
論文 参考訳(メタデータ) (2022-09-25T16:10:14Z) - Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。