Fugu-MT 論文翻訳(概要): NYC-Indoor-VPR: A Long-Term Indoor Visual Place Recognition Dataset with Semi-Automatic Annotation

論文の概要: NYC-Indoor-VPR: A Long-Term Indoor Visual Place Recognition Dataset with Semi-Automatic Annotation

arxiv url: http://arxiv.org/abs/2404.00504v1
Date: Sun, 31 Mar 2024 00:20:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 03:20:34.722329
Title: NYC-Indoor-VPR: A Long-Term Indoor Visual Place Recognition Dataset with Semi-Automatic Annotation
Title（参考訳）: 半自動アノテーションを用いた長期屋内視覚位置認識データセットNYC-Indoor-VPR
Authors: Diwei Sheng, Anbang Yang, John-Ross Rizzo, Chen Feng,
Abstract要約: 本稿では、ニューヨーク市内の13の異なる混雑したシーンから収集された36,000枚以上の画像のユニークで豊富なコレクションであるNYC-Indoor-VPRデータセットを紹介する。 VPRのための基礎的真理を確立するために,各画像の位置情報を計算する半自動アノテーション手法を提案する。提案手法は,ビデオのペアを入力とし,一致した画像のペアと推定された相対位置を出力する。
参考スコア（独自算出の注目度）: 7.037667953803237
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Place Recognition (VPR) in indoor environments is beneficial to humans and robots for better localization and navigation. It is challenging due to appearance changes at various frequencies, and difficulties of obtaining ground truth metric trajectories for training and evaluation. This paper introduces the NYC-Indoor-VPR dataset, a unique and rich collection of over 36,000 images compiled from 13 distinct crowded scenes in New York City taken under varying lighting conditions with appearance changes. Each scene has multiple revisits across a year. To establish the ground truth for VPR, we propose a semiautomatic annotation approach that computes the positional information of each image. Our method specifically takes pairs of videos as input and yields matched pairs of images along with their estimated relative locations. The accuracy of this matching is refined by human annotators, who utilize our annotation software to correlate the selected keyframes. Finally, we present a benchmark evaluation of several state-of-the-art VPR algorithms using our annotated dataset, revealing its challenge and thus value for VPR research.
Abstract（参考訳）: 室内環境における視覚的位置認識(VPR)は、人間やロボットにとってより良い位置認識とナビゲーションのために有用である。様々な周波数での出現変化や、訓練と評価のための基礎的真理距離軌跡の取得が困難であることから、これは困難である。本稿では、ニューヨーク市内の13の異なる混雑したシーンから収集された36,000枚以上の画像のユニークなコレクションであるNYC-Indoor-VPRデータセットを紹介する。各シーンには1年ごとに複数のリバイスがある。 VPRの基本的真理を確立するために,各画像の位置情報を計算する半自動アノテーション手法を提案する。提案手法は,ビデオのペアを入力とし,一致した画像のペアと推定された相対位置を出力する。このマッチングの精度は、アノテーションソフトウェアを用いて選択したキーフレームを相関付けする人間のアノテーションによって改善される。最後に、アノテーション付きデータセットを用いて、最先端のVPRアルゴリズムのベンチマーク評価を行い、VPR研究の課題と価値を明らかにする。

関連論文リスト

Video Individual Counting for Moving Drones [51.429771128144964]
ビデオ個別カウント(VIC)は、インテリジェントなビデオ監視の重要性から、近年注目を集めている。以前の群衆カウントデータセットは、比較的まばらな個人で固定された、または稀に動くカメラでキャプチャされる。本研究では,移動DroneCrowdデータセットに基づく密度マップに基づくVIC手法を提案する。
論文参考訳（メタデータ） (2025-03-12T07:09:33Z)
Close, But Not There: Boosting Geographic Distance Sensitivity in Visual Place Recognition [9.192660643226372]
我々は、現在のVPR埋め込みの地理的距離感度の制限が、トップk検索を誤ってソートする確率が高いことを定式化する。我々は,視覚的に類似した画像のグラフから斜めをサンプリングすることにより,正および負の例を選択する新たなマイニング戦略であるCliqueMiningを提案する。提案手法は,VPR埋め込みの感度を極小範囲で向上させ,関連するベンチマークの精度を著しく向上させる。
論文参考訳（メタデータ） (2024-07-02T16:49:01Z)
Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。 VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文参考訳（メタデータ） (2024-06-23T20:00:20Z)
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-29T15:05:11Z)
Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文参考訳（メタデータ） (2024-02-25T13:22:17Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)
CoPR: Towards Accurate Visual Localization With Continuous Place-descriptor Regression [2.7393821783237184]
ビジュアルプレース認識(VPR)は、ジオタグ付き参照画像のマップから最も類似した参照画像を取得することにより、クエリ画像のカメラ位置を推定する。 VPRの参照は、地図内のスパースポーズでのみ利用可能であり、最大到達可能なローカライゼーション精度の上限を強制する。本研究では,地図の高密度化とローカライズ精度の向上を図るために,CoPR(Continuous Place-Descriptor Regression)を提案する。
論文参考訳（メタデータ） (2023-04-14T23:17:44Z)
Self-Supervised Place Recognition by Refining Temporal and Featural Pseudo Labels from Panoramic Data [16.540900776820084]
本稿では,時間的近傍と学習可能な特徴近傍を用いて未知の空間近傍を探索するTF-VPRという新しいフレームワークを提案する。本手法は,リコール率,ロバスト性,方向多様性において,自己監督ベースラインよりも優れる。
論文参考訳（メタデータ） (2022-08-19T12:59:46Z)
NYU-VPR: Long-Term Visual Place Recognition Benchmark with View Direction and Data Anonymization Influences [5.94860356161563]
2016年中、ニューヨーク大学キャンパス近くの2km付近で撮影された20万枚以上の画像のデータセットを提示する。データ匿名化の影響はほとんど無視できる一方で、現在のVPR手法ではサイドビューの方がはるかに困難であることを示す。
論文参考訳（メタデータ） (2021-10-18T03:56:33Z)
HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4～12%向上したことを観察した。
論文参考訳（メタデータ） (2021-10-05T01:18:15Z)
Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文参考訳（メタデータ） (2020-08-31T08:31:56Z)
VPR-Bench: An Open-Source Visual Place Recognition Evaluation Framework with Quantifiable Viewpoint and Appearance Change [25.853640977526705]
VPRの研究は、カメラハードウェアの改善とディープラーニングベースの技術の可能性により、過去10年間で急速に成長してきた。この成長は、特に性能評価に関する分野における断片化と標準化の欠如につながった。本稿では,VPR技術の性能評価を行うオープンソースフレームワーク「VPR-Bench」を通じて,これらのギャップに対処する。
論文参考訳（メタデータ） (2020-05-17T00:27:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。