論文の概要: Weatherproofing Retrieval for Localization with Generative AI and
Geometric Consistency
- arxiv url: http://arxiv.org/abs/2402.09237v1
- Date: Wed, 14 Feb 2024 15:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:54:46.492182
- Title: Weatherproofing Retrieval for Localization with Generative AI and
Geometric Consistency
- Title(参考訳): 生成aiと幾何整合性を用いた測位のための耐候性検索
- Authors: Yannis Kalantidis, Mert B\"ulent Sar{\i}y{\i}ld{\i}z, Rafael S.
Rezende, Philippe Weinzaepfel, Diane Larlus, Gabriela Csurka
- Abstract要約: 最先端のビジュアルローカライゼーションアプローチは、最初の画像検索ステップに依存している。
我々は、この検索手順を改善し、最終ローカライゼーションタスクに調整する。
これらの変化が、最も困難な視覚的ローカライゼーションデータセットの大幅な改善に変換されることを実験的に示す。
- 参考スコア(独自算出の注目度): 32.46493952272438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art visual localization approaches generally rely on a first
image retrieval step whose role is crucial. Yet, retrieval often struggles when
facing varying conditions, due to e.g. weather or time of day, with dramatic
consequences on the visual localization accuracy. In this paper, we improve
this retrieval step and tailor it to the final localization task. Among the
several changes we advocate for, we propose to synthesize variants of the
training set images, obtained from generative text-to-image models, in order to
automatically expand the training set towards a number of nameable variations
that particularly hurt visual localization. After expanding the training set,
we propose a training approach that leverages the specificities and the
underlying geometry of this mix of real and synthetic images. We experimentally
show that those changes translate into large improvements for the most
challenging visual localization datasets. Project page:
https://europe.naverlabs.com/ret4loc
- Abstract(参考訳): 最先端の視覚的ローカライゼーションアプローチは一般的に、重要な役割を持つ最初の画像検索ステップに依存している。
しかし、例えば天気や日時などによって様々な状況に直面すると、視覚的位置決め精度に劇的な結果をもたらすことがしばしばある。
本稿では,この検索ステップを改善し,最終ローカライズタスクに合わせる。
提案するいくつかの変更のうち,生成テキストから画像への生成モデルから得られたトレーニングセット画像の変形を合成し,特に視覚局在を損なう多数の命名可能なバリエーションに対してトレーニングセットを自動拡張することを提案する。
トレーニングセットを拡張した後に,この実画像と合成画像の混合の特異性と基礎的な形状を利用する訓練手法を提案する。
これらの変化は、最も困難な視覚的ローカライゼーションデータセットに対して大きな改善をもたらすことを実験的に示す。
プロジェクトページ: https://europe.naverlabs.com/ret4loc
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Learning with Multi-modal Gradient Attention for Explainable Composed
Image Retrieval [15.24270990274781]
そこで本研究では,各検索ステップで修正される関心領域に,モデルに明示的に集中するよう強制する,グラディショナル・アテンションに基づく新たな学習目標を提案する。
我々は,MMGradをエンド・ツー・エンドのモデルトレーニング戦略に組み込む方法を示し,これらのMMGradアテンションマップに修正文に対応する適切な局所領域の強調を強制する新たな学習目標を示す。
論文 参考訳(メタデータ) (2023-08-31T11:46:27Z) - Self-Supervised Feature Learning for Long-Term Metric Visual
Localization [16.987148593917905]
本稿では,メトリクスの視覚的ローカライゼーションのための新しい自己教師型特徴学習フレームワークを提案する。
提案手法は, 画像照合アルゴリズムを用いて, 基底構造ラベルを使わずに画像対応を生成する。
次に、画像ペアをサンプリングして、深層ニューラルネットワークをトレーニングし、関連する記述子とスコアのスパースな特徴を学習する。
論文 参考訳(メタデータ) (2022-11-30T21:15:05Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z) - Adversarial Transfer of Pose Estimation Regression [11.117357750374035]
本研究では,シーン不変の画像表現を学習するための深層適応ネットワークを開発し,モデル転送のための表現を生成する。
我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。
論文 参考訳(メタデータ) (2020-06-20T21:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。