論文の概要: Augmenting Visual Place Recognition with Structural Cues
- arxiv url: http://arxiv.org/abs/2003.00278v3
- Date: Thu, 16 Jul 2020 15:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 21:02:41.242473
- Title: Augmenting Visual Place Recognition with Structural Cues
- Title(参考訳): 構造的手がかりによる視覚位置認識の強化
- Authors: Amadeus Oertel, Titus Cieslewski and Davide Scaramuzza
- Abstract要約: 画像に基づく位置認識を構造的手がかりで強化することを提案する。
これは、画像ベースの位置認識に一般的に使用される2D畳み込みニューラルネットワーク(CNN)を3D CNNで拡張することで実現される。
Oxford RobotCarデータセットでは、入力モードの1つだけから抽出したディスクリプタと比較して、結果のディスクリプタは優れた認識性能を示す。
- 参考スコア(独自算出の注目度): 46.89180519082908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose to augment image-based place recognition with
structural cues. Specifically, these structural cues are obtained using
structure-from-motion, such that no additional sensors are needed for place
recognition. This is achieved by augmenting the 2D convolutional neural network
(CNN) typically used for image-based place recognition with a 3D CNN that takes
as input a voxel grid derived from the structure-from-motion point cloud. We
evaluate different methods for fusing the 2D and 3D features and obtain best
performance with global average pooling and simple concatenation. On the Oxford
RobotCar dataset, the resulting descriptor exhibits superior recognition
performance compared to descriptors extracted from only one of the input
modalities, including state-of-the-art image-based descriptors. Especially at
low descriptor dimensionalities, we outperform state-of-the-art descriptors by
up to 90%.
- Abstract(参考訳): 本稿では,画像に基づく位置認識を構造的手がかりで強化することを提案する。
具体的には、これらの構造的手がかりは、位置認識のために追加のセンサーを必要としない構造的移動を用いて得られる。
これは、一般的に画像ベースの位置認識に使用される2D畳み込みニューラルネットワーク(CNN)を3D CNNで拡張することで実現される。
2次元と3次元の特徴を融合するための異なる手法を評価し、グローバル平均プーリングと単純な連結法で最高の性能を得る。
Oxford RobotCarデータセットでは、結果のディスクリプタは、最先端の画像ベースのディスクリプタを含む入力モードの1つから抽出されたディスクリプタよりも優れた認識性能を示す。
特に低ディスクリプタ次元では,最先端ディスクリプタを最大90%上回っている。
関連論文リスト
- SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Learning-Based Dimensionality Reduction for Computing Compact and
Effective Local Feature Descriptors [101.62384271200169]
特徴の形でのイメージパッチの独特な表現は多くのコンピュータビジョンとロボティクスのタスクの重要な構成要素である。
マルチ層パーセプトロン(MLP)を用いて,低次元ながら高品質な記述子を抽出する。
視覚的ローカライゼーション、パッチ検証、画像マッチング、検索など、さまざまなアプリケーションについて検討する。
論文 参考訳(メタデータ) (2022-09-27T17:59:04Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。
最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。
関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文 参考訳(メタデータ) (2021-05-04T15:23:29Z) - NDT-Transformer: Large-Scale 3D Point Cloud Localisation using the
Normal Distribution Transform Representation [16.227913384694347]
GPS対応環境での自動運転により、3Dポイントクラウドによる位置認識が求められています。
本稿では,3次元点雲を用いたリアルタイム・大規模位置認識のための新しい手法 NDT-Transformer を提案する。
論文 参考訳(メタデータ) (2021-03-23T04:04:38Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - CORAL: Colored structural representation for bi-modal place recognition [12.357478978433814]
視覚とLiDARの2つのモードから複合グローバル記述子を抽出できるバイモーダル位置認識法を提案する。
具体的には,まず3次元点から生成された標高像を構造表現として構築する。
次に,3次元点と画像画素の対応関係を導出し,画素単位の視覚的特徴を高架マップグリッドにマージする。
論文 参考訳(メタデータ) (2020-11-22T04:51:40Z) - Towards Improved Human Action Recognition Using Convolutional Neural
Networks and Multimodal Fusion of Depth and Inertial Sensor Data [1.52292571922932]
本稿では,深度と慣性センサデータの融合によるヒューマンアクション認識(HAR)の精度向上を試みる。
我々は、深度データを逐次フロントビューイメージ(SFI)に変換し、これらの画像上でトレーニング済みのAlexNetを微調整する。
慣性データを信号画像(SI)に変換し、これらの画像上で別の畳み込みニューラルネットワーク(CNN)を訓練する。
論文 参考訳(メタデータ) (2020-08-22T03:41:34Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z) - Unconstrained Matching of 2D and 3D Descriptors for 6-DOF Pose
Estimation [44.66818851668686]
我々は2D点と3D点とに対応する特徴記述子のデータセットを生成する。
テスト時に画像のポーズをローカライズするために,クエリ画像からキーポイントと特徴記述子を抽出する。
マッチングされた特徴の位置は、クエリ画像の位置と向きを予測する頑健なポーズ推定アルゴリズムで使用される。
論文 参考訳(メタデータ) (2020-05-29T11:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。