論文の概要: MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2505.12254v1
- Date: Sun, 18 May 2025 06:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.123352
- Title: MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark
- Title(参考訳): MMS-VPR:マルチモーダルストリートレベル視覚位置認識データセットとベンチマーク
- Authors: Yiwei Ou, Xiaobin Ren, Ronggui Sun, Guansong Gao, Ziyi Jiang, Kaiqi Zhao, Manfredo Manfredini,
- Abstract要約: MMS-VPRは、歩行者のみの複雑な環境でストリートレベルの場所認識のための大規模なマルチモーダルデータセットである。
データセットは78,575枚の注釈付き画像と2,512本のビデオクリップからなり、中国・成都にある70,800ドルの屋外商業地区で207箇所で撮影された。
- 参考スコア(独自算出の注目度): 1.858700200692012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing visual place recognition (VPR) datasets predominantly rely on vehicle-mounted imagery, lack multimodal diversity and underrepresent dense, mixed-use street-level spaces, especially in non-Western urban contexts. To address these gaps, we introduce MMS-VPR, a large-scale multimodal dataset for street-level place recognition in complex, pedestrian-only environments. The dataset comprises 78,575 annotated images and 2,512 video clips captured across 207 locations in a ~70,800 $\mathrm{m}^2$ open-air commercial district in Chengdu, China. Each image is labeled with precise GPS coordinates, timestamp, and textual metadata, and covers varied lighting conditions, viewpoints, and timeframes. MMS-VPR follows a systematic and replicable data collection protocol with minimal device requirements, lowering the barrier for scalable dataset creation. Importantly, the dataset forms an inherent spatial graph with 125 edges, 81 nodes, and 1 subgraph, enabling structure-aware place recognition. We further define two application-specific subsets -- Dataset_Edges and Dataset_Points -- to support fine-grained and graph-based evaluation tasks. Extensive benchmarks using conventional VPR models, graph neural networks, and multimodal baselines show substantial improvements when leveraging multimodal and structural cues. MMS-VPR facilitates future research at the intersection of computer vision, geospatial understanding, and multimodal reasoning. The dataset is publicly available at https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR.
- Abstract(参考訳): 既存の視覚的場所認識(VPR)データセットは、主に車両に搭載された画像に依存しており、多モードの多様性が欠如しており、特に西部以外の都市環境では、高密度で混在する街路空間が不足している。
これらのギャップに対処するために、複雑な歩行者のみの環境での街路レベルの位置認識のための大規模マルチモーダルデータセットであるMMS-VPRを導入する。
データセットには78,575枚の注釈付き画像と、2,512本のビデオクリップが207箇所で撮影された。
各画像には正確なGPS座標、タイムスタンプ、テキストメタデータがラベル付けされており、様々な照明条件、視点、時間枠をカバーしている。
MMS-VPRは、最小限のデバイス要件を備えた、システマティックでレプリカ可能なデータ収集プロトコルに従い、スケーラブルなデータセット作成の障壁を低くする。
重要なことに、データセットは125のエッジ、81のノード、1のサブグラフを持つ固有の空間グラフを形成し、構造認識の場所認識を可能にする。
さらに、詳細なグラフベースの評価タスクをサポートするために、アプリケーション固有の2つのサブセット、Dataset_EdgesとDataset_Pointsを定義します。
従来のVPRモデル、グラフニューラルネットワーク、マルチモーダルベースラインを用いた大規模なベンチマークは、マルチモーダルおよび構造的キューを活用する際の大幅な改善を示している。
MMS-VPRは、コンピュータビジョン、地理空間理解、マルチモーダル推論の交差点における将来の研究を促進する。
データセットはhttps://huggingface.co/datasets/Yiwei-Ou/MMS-VPRで公開されている。
関連論文リスト
- Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - MapGlue: Multimodal Remote Sensing Image Matching [12.376931699274062]
マルチモーダルリモートセンシング画像(MRSI)マッチングは、クロスモーダル融合、ローカライゼーション、オブジェクト検出において重要である。
既存のユニモーダルデータセットにはスケールと多様性がなく、ディープラーニングソリューションに制限がある。
本稿では,汎用MRSIマッチングフレームワークであるMapGlueと,これらのギャップに対処する大規模マルチモーダルデータセットであるMapDataを提案する。
論文 参考訳(メタデータ) (2025-03-20T14:36:16Z) - A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。
最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。
第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文 参考訳(メタデータ) (2025-03-10T21:09:02Z) - MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。