論文の概要: CQVPR: Landmark-aware Contextual Queries for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2503.08170v1
- Date: Tue, 11 Mar 2025 08:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:30.980447
- Title: CQVPR: Landmark-aware Contextual Queries for Visual Place Recognition
- Title(参考訳): CQVPR:視覚的位置認識のためのランドマーク対応コンテキストクエリ
- Authors: Dongyue Li, Daisuke Deguchi, Hiroshi Murase,
- Abstract要約: 都市環境のようないくつかのシナリオでは、多くのランドマークがあり、異なる都市のランドマークは、しばしば高い視覚的類似性を示す。
本稿では,コンテキスト情報と詳細なピクセルレベルの視覚的特徴を統合するコンテキストクエリVPR(CQVPR)を提案する。
学習可能なコンテキストクエリのセットを活用することで,ランドマークとその周辺領域に関する高レベルのコンテキストを自動的に学習する。
- 参考スコア(独自算出の注目度): 7.264963461838197
- License:
- Abstract: Visual Place Recognition (VPR) aims to estimate the location of the given query image within a database of geo-tagged images. To identify the exact location in an image, detecting landmarks is crucial. However, in some scenarios, such as urban environments, there are numerous landmarks, such as various modern buildings, and the landmarks in different cities often exhibit high visual similarity. Therefore, it is essential not only to leverage the landmarks but also to consider the contextual information surrounding them, such as whether there are trees, roads, or other features around the landmarks. We propose the Contextual Query VPR (CQVPR), which integrates contextual information with detailed pixel-level visual features. By leveraging a set of learnable contextual queries, our method automatically learns the high-level contexts with respect to landmarks and their surrounding areas. Heatmaps depicting regions that each query attends to serve as context-aware features, offering cues that could enhance the understanding of each scene. We further propose a query matching loss to supervise the extraction process of contextual queries. Extensive experiments on several datasets demonstrate that the proposed method outperforms other state-of-the-art methods, especially in challenging scenarios.
- Abstract(参考訳): 視覚的位置認識(VPR)は、ジオタグ付き画像データベース内の所定のクエリ画像の位置を推定することを目的としている。
画像内の正確な位置を特定するためには、ランドマークを検出することが不可欠である。
しかし、都市環境などのいくつかのシナリオでは、様々な近代的な建物のような多くのランドマークがあり、異なる都市のランドマークは高い視覚的類似性を示すことが多い。
そのため、ランドマークの活用だけでなく、その周囲に樹木、道路、その他の特徴があるかどうかなど、ランドマークを取り巻く文脈情報も考慮する必要がある。
本稿では,コンテキスト情報と詳細なピクセルレベルの視覚的特徴を統合するコンテキストクエリVPR(CQVPR)を提案する。
学習可能なコンテキストクエリのセットを活用することで,ランドマークとその周辺領域に関する高レベルのコンテキストを自動的に学習する。
ヒートマップでは、各クエリが出席する領域がコンテキスト認識機能として機能し、各シーンの理解を深める手がかりを提供する。
さらに、コンテキストクエリの抽出プロセスを監督するために、クエリマッチング損失を提案する。
いくつかのデータセットに対する大規模な実験により、提案手法は、特に挑戦的なシナリオにおいて、他の最先端の手法よりも優れていることが示された。
関連論文リスト
- Where am I? Cross-View Geo-localization with Natural Language Descriptions [16.870286138129902]
クロスビュージオローカライゼーションは、ジオタグ付き衛星画像やOSMとマッチングすることで、ストリートビュー画像の位置を特定する。
本稿では,シーンテキストに基づいて,対応する衛星画像やOSMデータベースを検索することを目的とした,自然言語記述によるクロスビュージオローカライズのための新しいタスクを提案する。
論文 参考訳(メタデータ) (2024-12-22T13:13:10Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Benchmarking Image Retrieval for Visual Localization [41.38065116577011]
視覚的ローカライゼーションは、自律運転や拡張現実といったテクノロジーの中核的なコンポーネントである。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
本稿では,複数の視覚的ローカライゼーションタスクにおける画像検索の役割を理解することに焦点を当てる。
論文 参考訳(メタデータ) (2020-11-24T07:59:52Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Location Sensitive Image Retrieval and Tagging [10.832389603397603]
LocSensは画像、タグ、座標の三つ子を可視性でランク付けするモデルである。
LocSensは画像、タグ、座標の三重項を可視性でランク付けするモデルであり、最終的なランク付けにおける位置の影響をバランス付けるための2つのトレーニング戦略である。
論文 参考訳(メタデータ) (2020-07-07T12:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。