論文の概要: DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation
- arxiv url: http://arxiv.org/abs/2012.02366v4
- Date: Thu, 11 Mar 2021 21:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:43:06.010880
- Title: DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation
- Title(参考訳): DenserNet: マルチスケール機能集約による視覚的ローカライゼーションの弱さ
- Authors: Dongfang Liu, Yiming Cui, Liqi Yan, Christos Mousas, Baijian Yang,
Yingjie Chen
- Abstract要約: 画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
- 参考スコア(独自算出の注目度): 7.2531609092488445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a Denser Feature Network (DenserNet) for visual
localization. Our work provides three principal contributions. First, we
develop a convolutional neural network (CNN) architecture which aggregates
feature maps at different semantic levels for image representations. Using
denser feature maps, our method can produce more keypoint features and increase
image retrieval accuracy. Second, our model is trained end-to-end without
pixel-level annotation other than positive and negative GPS-tagged image pairs.
We use a weakly supervised triplet ranking loss to learn discriminative
features and encourage keypoint feature repeatability for image representation.
Finally, our method is computationally efficient as our architecture has shared
features and parameters during computation. Our method can perform accurate
large-scale localization under challenging conditions while remaining the
computational constraint. Extensive experiment results indicate that our method
sets a new state-of-the-art on four challenging large-scale localization
benchmarks and three image retrieval benchmarks.
- Abstract(参考訳): 本研究では,視覚的ローカライゼーションのためのDenser Feature Network(DenserNet)を提案する。
私たちの仕事は3つの主要な貢献をする。
まず,画像表現のための意味レベルで特徴マップを集約する畳み込みニューラルネットワーク(cnn)アーキテクチャを開発する。
より高密度な特徴マップを用いて,より重要な特徴を抽出し,画像検索精度を向上させる。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
弱教師付き三重項ランキングの損失を利用して、識別的特徴を学習し、画像表現のキーポイント特徴再現性を奨励する。
最後に,本手法は計算時の特徴やパラメータを共有できるので,計算効率がよい。
本手法は,計算制約を保ちながら,困難条件下で高精度な大規模ローカライズを行うことができる。
大規模ローカライズベンチマークと3つの画像検索ベンチマークにおいて,新たな最先端手法が提案されている。
関連論文リスト
- Decomposition of Neural Discrete Representations for Large-Scale 3D Mapping [15.085191496726967]
分解型ニューラルマッピング(DNMap)について紹介する。
DNMapはストレージ効率のよい大規模3Dマッピング手法である。
我々は、小さなストレージ空間を必要とする低解像度の連続的な埋め込みを学習する。
論文 参考訳(メタデータ) (2024-07-22T11:32:33Z) - A Triplet-loss Dilated Residual Network for High-Resolution
Representation Learning in Image Retrieval [0.0]
ローカライゼーションなどのいくつかのアプリケーションでは、画像検索が最初のステップとして使用される。
本論文では,トレーニング可能なパラメータが少ない,単純かつ効率的な画像検索システムを提案する。
提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。
論文 参考訳(メタデータ) (2023-03-15T07:01:44Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Learning Super-Features for Image Retrieval [34.22539650643026]
我々は,スーパーフィーチャーと呼ばれる中級機能のみをベースとした,深層画像検索のための新しいアーキテクチャを提案する。
一般的なランドマーク検索ベンチマークの実験では、Super-featuresは同じ数の機能を使用する場合、最先端の手法よりも大幅に優れていることが検証されている。
論文 参考訳(メタデータ) (2022-01-31T12:48:42Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z) - Learning Condition Invariant Features for Retrieval-Based Localization
from 1M Images [85.81073893916414]
我々は、より正確で、より一般化されたローカライゼーション特徴を学習する新しい方法を開発した。
難易度の高いオックスフォード・ロボットカーの夜間条件では、5m以内の局所化精度でよく知られた三重項損失を24.4%上回っている。
論文 参考訳(メタデータ) (2020-08-27T14:46:22Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。