論文の概要: CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud
Registration
- arxiv url: http://arxiv.org/abs/2309.14660v2
- Date: Thu, 26 Oct 2023 06:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 00:58:28.444222
- Title: CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud
Registration
- Title(参考訳): cofii2p: イメージからポイントへのクラウド登録のための粗粒度対応
- Authors: Shuhao Kang, Youqi Liao, Jianping Li, Fuxun Liang, Yuhao Li, Fangning
Li, Zhen Dong, Bisheng Yang
- Abstract要約: CoFiI2Pは、グローバルな最適解を達成するために、粗大な方法で対応を抽出する新しいI2P登録ネットワークである。
KITTIデータセットで行った実験は、CoFiI2Pが素晴らしい結果をもたらすことを示した。
- 参考スコア(独自算出の注目度): 7.688604341518753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-point cloud (I2P) registration is a fundamental task in the field of
autonomous vehicles and transportation systems for cross-modality data fusion
and localization. Existing I2P registration methods estimate correspondences at
the point/pixel level, often overlooking global alignment. However, I2P
matching can easily converge to a local optimum when performed without
high-level guidance from global constraints. To address this issue, this paper
introduces CoFiI2P, a novel I2P registration network that extracts
correspondences in a coarse-to-fine manner to achieve the globally optimal
solution. First, the image and point cloud data are processed through a Siamese
encoder-decoder network for hierarchical feature extraction. Second, a
coarse-to-fine matching module is designed to leverage these features and
establish robust feature correspondences. Specifically, In the coarse matching
phase, a novel I2P transformer module is employed to capture both homogeneous
and heterogeneous global information from the image and point cloud data. This
enables the estimation of coarse super-point/super-pixel matching pairs with
discriminative descriptors. In the fine matching module, point/pixel pairs are
established with the guidance of super-point/super-pixel correspondences.
Finally, based on matching pairs, the transform matrix is estimated with the
EPnP-RANSAC algorithm. Extensive experiments conducted on the KITTI dataset
demonstrate that CoFiI2P achieves impressive results, with a relative rotation
error (RRE) of 1.14 degrees and a relative translation error (RTE) of 0.29
meters. These results represent a significant improvement of 84\% in RRE and
89\% in RTE compared to the current state-of-the-art (SOTA) method. Qualitative
results are available at https://youtu.be/ovbedasXuZE. The source code will be
publicly released at https://github.com/kang-1-2-3/CoFiI2P.
- Abstract(参考訳): image-to-point cloud (i2p)登録は、クロスモダリティデータ融合とローカライズのための自動運転車と輸送システムの分野で基本的なタスクである。
既存のI2P登録手法は、しばしばグローバルアライメントを見越して、ポイント/ピクセルレベルで対応を推定する。
しかし、i2pマッチングは、グローバル制約からの高レベルなガイダンスがなければ、容易に局所最適に収束することができる。
この問題に対処するために,グローバルな最適解を実現するために,粗大な方法で対応を抽出する新しいI2P登録ネットワークであるCoFiI2Pを紹介する。
まず、画像と点雲データをシームズエンコーダデコーダネットワークを介して処理し、階層的特徴抽出を行う。
第二に、これらの特徴を活用し、堅牢な特徴対応を確立するために、粗大なマッチングモジュールが設計されている。
具体的には、粗いマッチングフェーズにおいて、画像と点クラウドデータから均一なグローバル情報と不均一なグローバル情報の両方をキャプチャするために、新しいI2Pトランスフォーマーモジュールを用いる。
これにより、識別記述子との粗いスーパーポイント/スーパーピクセルマッチングペアを推定できる。
ファインマッチングモジュールでは、スーパーポイント/スーパーピクセル対応のガイダンスにより、ポイント/ピクセルペアが確立される。
最後に、一致するペアに基づいて、変換行列をEPnP-RANSACアルゴリズムで推定する。
KITTIデータセットで実施された大規模な実験により、CoFiI2Pは1.14度の相対回転誤差(RRE)と0.29mの相対翻訳誤差(RTE)で印象的な結果が得られることが示された。
これらの結果は, 現状技術(SOTA)法と比較して, RRE 84 %, RTE 89 % の大幅な改善を示した。
質的な結果はhttps://youtu.be/ovbedasXuZEで確認できる。
ソースコードはhttps://github.com/kang-1-2-3/CoFiI2Pで公開される。
関連論文リスト
- I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through
Bird's Eye View Projections [18.7557037030769]
位置認識は、完全な自律性を達成するための、自動運転車にとって重要な技術である。
クロスモーダルデータを同じモダリティに変換することで,I2P-Rec法を提案する。
トレーニングデータの小さなセットだけで、I2P-Recはポイントクラウドマップ上のモノクロ画像とステレオ画像のローカライズ時に、80%と90%でトップ1%のリコール率を達成する。
論文 参考訳(メタデータ) (2023-03-02T07:56:04Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - FuSS: Fusing Superpixels for Improved Segmentation Consistency [2.7771471571972333]
本論文では,Open Set Semanticのセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティック
まず,各クラスの画素分布をマルチモーダルにモデル化するOpenGMMを提案する。
第二のアプローチは後処理で、スーパーピクセルを使って高度に均一な領域を均等に振る舞う。
論文 参考訳(メタデータ) (2022-06-06T16:14:19Z) - Robust Partial-to-Partial Point Cloud Registration in a Full Range [12.86951061306046]
本稿では,全方向1の部分対部分点クラウド登録(PPR)のためのポーズ不変対応を推定するグラフマッチング・コンセンサス・ネットワーク(GMCNet)を提案する。
GMCNetは、個別に各点クラウドのポイント記述子を、クロスコンテクスト情報や、トレーニングのための接地真理対応を使わずに符号化する。
論文 参考訳(メタデータ) (2021-11-30T17:56:24Z) - FIDNet: LiDAR Point Cloud Semantic Segmentation with Fully Interpolation
Decoding [5.599306291149907]
2次元球面領域画像上に点雲を投影すると、LiDARセマンティックセマンティックセマンティックセマンティクスがレンジ画像上の2次元セマンティクスタスクに変換される。
本稿では,新しいネットワーク構造と効率的な後処理ステップからなる投影型LiDARセマンティックセマンティックセマンティクスパイプラインを提案する。
我々のパイプラインは、40倍の2048$の解像度を持つプロジェクションベースのメソッドと、すべてのポイントワイズソリューションの中で、最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-09-08T17:20:09Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。