論文の概要: RGB2LIDAR: Towards Solving Large-Scale Cross-Modal Visual Localization
- arxiv url: http://arxiv.org/abs/2009.05695v1
- Date: Sat, 12 Sep 2020 01:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 08:15:15.611253
- Title: RGB2LIDAR: Towards Solving Large-Scale Cross-Modal Visual Localization
- Title(参考訳): rgb2lidar:大規模クロスモーダル視覚定位解決に向けて
- Authors: Niluthpol Chowdhury Mithun, Karan Sikka, Han-Pang Chiu, Supun
Samarasekera, Rakesh Kumar
- Abstract要約: 我々は,大規模なモーダルな視覚的位置決めの重要かつ未解明な問題について検討する。
我々は550万組のRGBと空中LIDAR深度画像を含む新しいデータセットを導入する。
両モードの外観と意味的手がかりを効果的に組み合わせた新しい結合埋め込み方式を提案する。
- 参考スコア(独自算出の注目度): 20.350871370274238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study an important, yet largely unexplored problem of large-scale
cross-modal visual localization by matching ground RGB images to a
geo-referenced aerial LIDAR 3D point cloud (rendered as depth images). Prior
works were demonstrated on small datasets and did not lend themselves to
scaling up for large-scale applications. To enable large-scale evaluation, we
introduce a new dataset containing over 550K pairs (covering 143 km^2 area) of
RGB and aerial LIDAR depth images. We propose a novel joint embedding based
method that effectively combines the appearance and semantic cues from both
modalities to handle drastic cross-modal variations. Experiments on the
proposed dataset show that our model achieves a strong result of a median rank
of 5 in matching across a large test set of 50K location pairs collected from a
14km^2 area. This represents a significant advancement over prior works in
performance and scale. We conclude with qualitative results to highlight the
challenging nature of this task and the benefits of the proposed model. Our
work provides a foundation for further research in cross-modal visual
localization.
- Abstract(参考訳): 地上RGB画像とジオレファレンスされた空中LIDAR 3D点雲(奥行き画像)をマッチングすることにより,大規模かつ未解明な大規模視像定位問題について検討した。
以前の作業は小さなデータセットで実証され、大規模アプリケーションのスケールアップには役立たなかった。
大規模評価を実現するため,RGBの550K対(143km^2領域をカバー)と空中LIDAR深度画像を含む新しいデータセットを導入した。
本稿では,両モードの外観と意味的手がかりを効果的に組み合わせて,劇的なクロスモーダル変動に対処する結合埋め込み方式を提案する。
提案するデータセットを用いた実験により,14km^2領域から収集した50kロケーションペアの大規模なテストセットにおいて,中央値5ランクの強い結果が得られた。
これは、パフォーマンスとスケールにおける以前の作業よりも大幅に進歩したことを示している。
我々は,この課題の難易度と提案モデルの利点を明らかにするための質的な結果で結論付けた。
我々の研究は、クロスモーダルな視覚的ローカライゼーションのさらなる研究の基盤を提供する。
関連論文リスト
- From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection
with Super Resolution [4.107182710549721]
超解像度と適応型軽量YOLOv5アーキテクチャを組み合わせた革新的なアプローチを提案する。
実験により,小型で密集した物体の検出において,モデルの性能が優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - Learning to Holistically Detect Bridges from Large-Size VHR Remote
Sensing Imagery [40.001753733290464]
大規模超高分解能(VHR)RSIにおける全体的橋梁検出は不可欠である。
大規模なVHR RSIを備えたデータセットの欠如は、ブリッジ検出におけるディープラーニングアルゴリズムのパフォーマンスを制限している。
本稿では,多様な地理的位置から採取した6,000VHR RSIからなるGLH-Bridgeという大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-12-05T04:15:22Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Scale Invariant Semantic Segmentation with RGB-D Fusion [12.650574326251023]
RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2022-04-10T12:54:27Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - Highly Accurate Dichotomous Image Segmentation [139.79513044546]
Dichotomous Image segmentation (DIS)と呼ばれる新しいタスクは、自然画像から高度に正確な物体を抽出することを目的としている。
私たちは、5,470の高解像度画像(例えば、2K、4K以上の画像)を含む最初の大規模データセットdis5Kを収集します。
また、Disdisモデルトレーニングのための特徴レベルとマスクレベルの両方のガイダンスを用いて、単純な中間監視ベースライン(IS-Net)を導入する。
論文 参考訳(メタデータ) (2022-03-06T20:09:19Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。