論文の概要: Revisit Anything: Visual Place Recognition via Image Segment Retrieval
- arxiv url: http://arxiv.org/abs/2409.18049v1
- Date: Thu, 26 Sep 2024 16:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:38:28.327598
- Title: Revisit Anything: Visual Place Recognition via Image Segment Retrieval
- Title(参考訳): Revisit Anything: Image Segment Retrievalによる視覚的位置認識
- Authors: Kartik Garg, Sai Shubodh Puligilla, Shishir Kolathaya, Madhava
Krishna, Sourav Garg
- Abstract要約: 既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
- 参考スコア(独自算出の注目度): 8.544326445217369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately recognizing a revisited place is crucial for embodied agents to
localize and navigate. This requires visual representations to be distinct,
despite strong variations in camera viewpoint and scene appearance. Existing
visual place recognition pipelines encode the "whole" image and search for
matches. This poses a fundamental challenge in matching two images of the same
place captured from different camera viewpoints: "the similarity of what
overlaps can be dominated by the dissimilarity of what does not overlap". We
address this by encoding and searching for "image segments" instead of the
whole images. We propose to use open-set image segmentation to decompose an
image into `meaningful' entities (i.e., things and stuff). This enables us to
create a novel image representation as a collection of multiple overlapping
subgraphs connecting a segment with its neighboring segments, dubbed
SuperSegment. Furthermore, to efficiently encode these SuperSegments into
compact vector representations, we propose a novel factorized representation of
feature aggregation. We show that retrieving these partial representations
leads to significantly higher recognition recall than the typical whole image
based retrieval. Our segments-based approach, dubbed SegVLAD, sets a new
state-of-the-art in place recognition on a diverse selection of benchmark
datasets, while being applicable to both generic and task-specialized image
encoders. Finally, we demonstrate the potential of our method to ``revisit
anything'' by evaluating our method on an object instance retrieval task, which
bridges the two disparate areas of research: visual place recognition and
object-goal navigation, through their common aim of recognizing goal objects
specific to a place. Source code: https://github.com/AnyLoc/Revisit-Anything.
- Abstract(参考訳): 再配置された場所を正確に認識することは、エンボディードエージェントがローカライズし、ナビゲートするのに不可欠である。
これは、カメラの視点やシーンの外観が強いにもかかわらず、視覚的な表現を区別する必要がある。
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
これは、異なるカメラ視点から捉えた同じ場所の2つの画像のマッチングにおいて、基本的な課題である:「重複するものの類似性は、重複しないものの相似性によって支配される」。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
本稿では,イメージを「意味のある」エンティティ(物や物)に分解するために,オープンセットのイメージセグメンテーションを提案する。
これにより、SuperSegmentと呼ばれるセグメントと隣接するセグメントを接続する複数の重なり合うサブグラフの集合として、新しい画像表現を作成することができる。
さらに,これらのスーパーセグメンツをコンパクトなベクトル表現に効率的に符号化するために,特徴集合の因子化表現を提案する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
我々のセグメントベースのアプローチは、SegVLADと呼ばれ、さまざまなベンチマークデータセットの選択に基づいて、新しい最先端の認識を定めながら、汎用およびタスク特化イメージエンコーダにも適用できます。
最後に、視覚的位置認識とオブジェクトゴールナビゲーションという2つの異なる研究領域を橋渡しするオブジェクトインスタンス検索タスクにおいて、目標オブジェクトの認識という共通の目的を通じて、オブジェクトインスタンス検索タスクにおいて、"何でも再検討する"方法の可能性を実証する。
ソースコード:https://github.com/AnyLoc/Revisit-Anything
関連論文リスト
- A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Region-Based Representations Revisited [34.01784145403097]
SAMのような最近のクラスに依存しないセグメンタは、DINOv2のような強力な教師なし表現と効果的に組み合わせることができることを示す。
表現のコンパクトさは、多くの画像にまたがる推論を必要とするビデオ解析や他の問題にも適している。
論文 参考訳(メタデータ) (2024-02-04T05:33:04Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Benchmarking Image Retrieval for Visual Localization [41.38065116577011]
視覚的ローカライゼーションは、自律運転や拡張現実といったテクノロジーの中核的なコンポーネントである。
これらのタスクには最先端の画像検索アルゴリズムを用いるのが一般的である。
本稿では,複数の視覚的ローカライゼーションタスクにおける画像検索の役割を理解することに焦点を当てる。
論文 参考訳(メタデータ) (2020-11-24T07:59:52Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。