Fugu-MT 論文翻訳(概要): City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling

論文の概要: City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling

arxiv url: http://arxiv.org/abs/2009.09255v2
Date: Mon, 1 May 2023 06:34:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 22:09:09.652106
Title: City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling
Title（参考訳）: マルチスケールオーダvladプールを用いた深部局所特徴を用いた都市規模視覚位置認識
Authors: Duc Canh Le, Chan Hyun Youn
Abstract要約: 本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。まず,視覚的位置認識の包括的分析を行い,その課題を概観する。次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
参考スコア（独自算出の注目度）: 5.274399407597545
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Visual place recognition is the task of recognizing a place depicted in an image based on its pure visual appearance without metadata. In visual place recognition, the challenges lie upon not only the changes in lighting conditions, camera viewpoint, and scale but also the characteristic of scene-level images and the distinct features of the area. To resolve these challenges, one must consider both the local discriminativeness and the global semantic context of images. On the other hand, the diversity of the datasets is also particularly important to develop more general models and advance the progress of the field. In this paper, we present a fully-automated system for place recognition at a city-scale based on content-based image retrieval. Our main contributions to the community lie in three aspects. Firstly, we take a comprehensive analysis of visual place recognition and sketch out the unique challenges of the task compared to general image retrieval tasks. Next, we propose yet a simple pooling approach on top of convolutional neural network activations to embed the spatial information into the image representation vector. Finally, we introduce new datasets for place recognition, which are particularly essential for application-based research. Furthermore, throughout extensive experiments, various issues in both image retrieval and place recognition are analyzed and discussed to give some insights into improving the performance of retrieval models in reality. The dataset used in this paper can be found at https://github.com/canhld94/Daejeon520
Abstract（参考訳）: 視覚的場所認識は、メタデータなしで純粋な視覚的外観に基づいて画像に描かれた場所を認識するタスクである。視覚位置認識における課題は、照明条件やカメラ視点、スケールの変化だけでなく、シーンレベルの画像の特徴やエリアの特徴にもよる。これらの課題を解決するためには、画像の局所的な識別性とグローバルな意味的文脈の両方を考慮する必要がある。一方でデータセットの多様性は、より一般的なモデルを開発し、この分野の進歩を進める上でも特に重要である。本稿では,コンテントベース画像検索に基づく都市規模における位置認識のための完全自動システムを提案する。コミュニティの主な貢献は3つの側面にあります。まず,視覚位置認識の包括的解析を行い,一般的な画像検索タスクと比較して,課題のユニークな課題をスケッチする。次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。最後に,アプリケーションベースの研究に特に不可欠な位置認識のための新しいデータセットを提案する。さらに, 広範囲にわたる実験を通じて, 画像検索と位置認識の両方における様々な問題を分析し, 検索モデルの性能向上に関する知見を与える。この論文で使われるデータセットはhttps://github.com/canhld94/daejeon520にある。

関連論文リスト

Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文参考訳（メタデータ） (2024-10-25T06:59:11Z)
Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-04-16T18:15:57Z)
CurriculumLoc: Enhancing Cross-Domain Geolocalization through Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文参考訳（メタデータ） (2023-11-20T08:40:01Z)
Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文参考訳（メタデータ） (2023-11-02T06:21:35Z)
Cross-modal Place Recognition in Image Databases using Event-based Sensors [28.124708490967713]
イベントクエリが与えられたデータベースから正規画像を取得することができる,最初のクロスプラットフォームな視覚的位置認識フレームワークを提案する。本手法は,ブリスベン-イベント-VPRデータセット上での最先端のフレームベースおよびイベントベース手法に関する有望な結果を示す。
論文参考訳（メタデータ） (2023-07-03T14:24:04Z)
Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T02:25:40Z)
Learning Semantics for Visual Place Recognition through Multi-Scale Attention [14.738954189759156]
本稿では,データの視覚的外観と意味的内容から,ロバストなグローバルな埋め込みを学習する最初のVPRアルゴリズムを提案する。さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。
論文参考訳（メタデータ） (2022-01-24T14:13:12Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文参考訳（メタデータ） (2021-01-13T16:30:20Z)
Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文参考訳（メタデータ） (2020-12-02T18:19:51Z)
Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文参考訳（メタデータ） (2020-03-21T15:36:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。