論文の概要: Breaking the Frame: Image Retrieval by Visual Overlap Prediction
- arxiv url: http://arxiv.org/abs/2406.16204v1
- Date: Sun, 23 Jun 2024 20:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:34:57.466756
- Title: Breaking the Frame: Image Retrieval by Visual Overlap Prediction
- Title(参考訳): フレームを分割する:ビジュアルオーバーラップ予測による画像検索
- Authors: Tong Wei, Philipp Lindenberger, Jiri Matas, Daniel Barath,
- Abstract要約: 本稿では,隠蔽や複雑なシーンを効果的に扱う新しい視覚的位置認識手法,VOPを提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
- 参考スコア(独自算出の注目度): 53.17564423756082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel visual place recognition approach, VOP, that efficiently addresses occlusions and complex scenes by shifting from traditional reliance on global image similarities and local features to image overlap prediction. The proposed method enables the identification of visible image sections without requiring expensive feature detection and matching. By focusing on obtaining patch-level embeddings by a Vision Transformer backbone and establishing patch-to-patch correspondences, our approach uses a voting mechanism to assess overlap scores for potential database images, thereby providing a nuanced image retrieval metric in challenging scenarios. VOP leads to more accurate relative pose estimation and localization results on the retrieved image pairs than state-of-the-art baselines on a number of large-scale, real-world datasets. The code is available at https://github.com/weitong8591/vop.
- Abstract(参考訳): 本稿では,グローバルな画像の類似性や局所的な特徴に伝統的な依存から,画像重なりの予測に移行することで,隠蔽や複雑なシーンを効果的に解決する新しい視覚的位置認識手法 VOP を提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
本研究では,Vision Transformerのバックボーンによるパッチレベルの埋め込みとパッチ・ツー・パッチ対応の確立に焦点をあてて,潜在的データベース画像の重複点評価のための投票機構を用いて,難解なシナリオにおけるニュアンス付き画像検索指標を提供する。
VOPは、検索した画像ペアの相対的なポーズ推定とローカライズ結果が、多数の大規模、実世界のデータセットの最先端ベースラインよりも正確になる。
コードはhttps://github.com/weitong8591/vop.comで公開されている。
関連論文リスト
- Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Data-efficient Large Scale Place Recognition with Graded Similarity
Supervision [10.117451511942267]
視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。
既存の方法は、同じ場所を表すか、そうでないイメージペアを使って訓練される。
VPRデータセットを再ラベルするための自動再アノテーション戦略をデプロイする。
コントラストネットワークのトレーニングに,グレード付き類似性ラベルを用いた新しい一般化コントラスト損失(GCL)を提案する。
論文 参考訳(メタデータ) (2023-03-21T10:56:57Z) - BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View
Images [20.30997801125592]
位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。
BEV画像上で訓練された単純なVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。
そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
論文 参考訳(メタデータ) (2023-02-28T05:37:45Z) - Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion [74.30861504619851]
本研究は,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールの不完全性のため、標準ビュー画像は、原画像から識別的な詳細手がかりを失う可能性がある。
提案手法は,各種評価設定における既存手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-12-05T16:24:09Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。