論文の概要: Temporal Attention for Cross-View Sequential Image Localization
- arxiv url: http://arxiv.org/abs/2408.15569v1
- Date: Wed, 28 Aug 2024 06:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:03:09.232136
- Title: Temporal Attention for Cross-View Sequential Image Localization
- Title(参考訳): 時系列画像定位のための時間的注意
- Authors: Dong Yuan, Frederic Maire, Feras Dayoub,
- Abstract要約: 本稿では,1つの衛星画像パッチ内でのストリートビュー画像の微粒化とシーケンシャルなローカライゼーションに着目し,クロスビューのローカライゼーションを強化する新しいアプローチを提案する。
逐次的な画像の微粒化に拡張することにより、新しい時間的注意モジュール(TAM)を備えるモデルでは、文脈情報を活用して、シーケンシャルな画像の局所化精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 17.14320442129364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel approach to enhancing cross-view localization, focusing on the fine-grained, sequential localization of street-view images within a single known satellite image patch, a significant departure from traditional one-to-one image retrieval methods. By expanding to sequential image fine-grained localization, our model, equipped with a novel Temporal Attention Module (TAM), leverages contextual information to significantly improve sequential image localization accuracy. Our method shows substantial reductions in both mean and median localization errors on the Cross-View Image Sequence (CVIS) dataset, outperforming current state-of-the-art single-image localization techniques. Additionally, by adapting the KITTI-CVL dataset into sequential image sets, we not only offer a more realistic dataset for future research but also demonstrate our model's robust generalization capabilities across varying times and areas, evidenced by a 75.3% reduction in mean distance error in cross-view sequential image localization.
- Abstract(参考訳): 本稿では,1つの衛星画像パッチ内でのストリートビュー画像の細粒度かつ逐次的ローカライゼーションに着目し,従来のワンツーワン画像検索法から大きく逸脱した,クロスビューローカライゼーションの新たなアプローチを提案する。
逐次的な画像の微粒化に拡張することにより、新しい時間的注意モジュール(TAM)を備えるモデルでは、文脈情報を活用して、シーケンシャルな画像の局所化精度を大幅に向上させる。
本手法は,Cross-View Image Sequence(CVIS)データセットにおける平均および中央値のローカライゼーション誤差を著しく低減し,最先端の単一画像ローカライゼーション技術より優れていることを示す。
さらに、KITTI-CVLデータセットをシーケンシャルな画像集合に適応させることにより、将来の研究のためのより現実的なデータセットを提供するだけでなく、クロスビューのシーケンシャルな画像ローカライゼーションにおける平均距離誤差の75.3%削減によって証明された様々な時間と領域にわたって、我々のモデルの堅牢な一般化能力を実証する。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization [0.9562145896371785]
本研究では,2次元画像領域と3次元LiDAR点の領域にコントラスト言語-画像事前学習を適用した。
提案手法は,視点画像のみを用いて,KITTI-360データセットの最先端リコール@1精度を22.4%向上させる。
また、モデルのゼロショット能力を実証し、トレーニングもせずにSOTAを8%上回りました。
論文 参考訳(メタデータ) (2023-12-27T17:23:57Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - LM-Reloc: Levenberg-Marquardt Based Direct Visual Relocalization [54.77498358487812]
LM-Relocは、直接画像アライメントに基づく視覚的再ローカライズのための新しいアプローチである。
本稿では,LM-Net を学習するための古典的レバンス・マルカルトアルゴリズムにインスパイアされた損失定式化を提案する。
論文 参考訳(メタデータ) (2020-10-13T12:15:20Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。