論文の概要: LCD -- Line Clustering and Description for Place Recognition
- arxiv url: http://arxiv.org/abs/2010.10867v1
- Date: Wed, 21 Oct 2020 09:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:34:08.134974
- Title: LCD -- Line Clustering and Description for Place Recognition
- Title(参考訳): LCD -- 位置認識のためのラインクラスタリングと記述
- Authors: Felix Taubner, Florian Tschopp, Tonci Novkovic, Roland Siegwart, Fadri
Furrer
- Abstract要約: 本稿では,RGB-Dカメラとラインクラスタを視覚的および幾何学的特徴として利用し,位置認識のための新しい学習ベースのアプローチを提案する。
本稿では,フレームワイド線クラスタリングのアテンション機構に基づくニューラルネットワークアーキテクチャを提案する。
同様のニューラルネットワークは、128個の浮動小数点数のコンパクトな埋め込みによるこれらのクラスタの記述に使用される。
- 参考スコア(独自算出の注目度): 29.053923938306323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research on visual place recognition mostly focuses on aggregating
local visual features of an image into a single vector representation.
Therefore, high-level information such as the geometric arrangement of the
features is typically lost. In this paper, we introduce a novel learning-based
approach to place recognition, using RGB-D cameras and line clusters as visual
and geometric features. We state the place recognition problem as a problem of
recognizing clusters of lines instead of individual patches, thus maintaining
structural information. In our work, line clusters are defined as lines that
make up individual objects, hence our place recognition approach can be
understood as object recognition. 3D line segments are detected in RGB-D images
using state-of-the-art techniques. We present a neural network architecture
based on the attention mechanism for frame-wise line clustering. A similar
neural network is used for the description of these clusters with a compact
embedding of 128 floating point numbers, trained with triplet loss on training
data obtained from the InteriorNet dataset. We show experiments on a large
number of indoor scenes and compare our method with the bag-of-words
image-retrieval approach using SIFT and SuperPoint features and the global
descriptor NetVLAD. Trained only on synthetic data, our approach generalizes
well to real-world data captured with Kinect sensors, while also providing
information about the geometric arrangement of instances.
- Abstract(参考訳): 視覚位置認識に関する最近の研究は、画像の局所的な視覚特徴を単一のベクトル表現に集約することに焦点を当てている。
したがって、特徴の幾何学的配置のような高レベル情報は通常失われる。
本稿では,rgb-dカメラとラインクラスタを視覚的および幾何学的特徴として用いる,新しい学習に基づく位置認識手法を提案する。
位置認識問題は、個々のパッチの代わりにラインのクラスタを認識する問題であり、構造情報の保持である。
私たちの研究では、ラインクラスタは個々のオブジェクトを構成する行として定義しているので、プレース認識アプローチはオブジェクト認識として理解することができます。
最先端技術を用いてRGB-D画像から3次元線分を検出する。
本稿では,フレームワイズラインクラスタリングのための注意機構に基づくニューラルネットワークアーキテクチャを提案する。
類似のニューラルネットワークは、128の浮動小数点数からなるコンパクトな埋め込みでこれらのクラスタの記述に使用され、インテリアネットデータセットから得られたトレーニングデータに対してトリプルトロスを訓練する。
そこで本研究では,室内シーンの多数の実験を行い,SIFTとSuperPointとグローバルディスクリプタNetVLADを用いた単語の検索手法との比較を行った。
本手法は、合成データのみに基づいて訓練され、Kinectセンサで捉えた実世界のデータに対して、また、インスタンスの幾何学的配置に関する情報を提供する。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - PointResNet: Residual Network for 3D Point Cloud Segmentation and
Classification [18.466814193413487]
ポイントクラウドのセグメンテーションと分類は、3Dコンピュータビジョンの主要なタスクである。
本稿では,残差ブロックベースアプローチであるPointResNetを提案する。
我々のモデルは、セグメント化と分類タスクのためのディープニューラルネットワークを用いて、3Dポイントを直接処理する。
論文 参考訳(メタデータ) (2022-11-20T17:39:48Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。