論文の概要: LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space
- arxiv url: http://arxiv.org/abs/2503.18142v2
- Date: Fri, 31 Oct 2025 21:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 20:19:58.375388
- Title: LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space
- Title(参考訳): LocDiff: ヒルベルト空間における拡散による地球上の位置の同定
- Authors: Zhangyu Wang, Zeping Liu, Jielu Zhang, Zhongliang Zhou, Qian Cao, Nemin Wu, Lan Mu, Yang Song, Yiqun Xie, Ni Lao, Gengchen Mai,
- Abstract要約: LocDiffは、マルチスケールな位置符号化空間において遅延拡散を行う最初の画像ジオローカライズモデルである。
LocDiffは、5つの挑戦的なグローバルな画像ジオローカライゼーションデータセットにおいて、最先端のグリッドベース、検索ベース、拡散ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 20.664043071378273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image geolocalization is a fundamental yet challenging task, aiming at inferring the geolocation on Earth where an image is taken. State-of-the-art methods employ either grid-based classification or gallery-based image-location retrieval, whose spatial generalizability significantly suffers if the spatial distribution of test im- ages does not align with the choices of grids and galleries. Recently emerging generative approaches, while getting rid of grids and galleries, use raw geographical coordinates and suffer quality losses due to their lack of multi-scale information. To address these limitations, we propose a multi-scale latent diffusion model called LocDiff for image geolocalization. We developed a novel positional encoding-decoding framework called Spherical Harmonics Dirac Delta (SHDD) Representations, which encodes points on a spherical surface (e.g., geolocations on Earth) into a Hilbert space of Spherical Harmonics coefficients and decodes points (geolocations) by mode-seeking on spherical probability distributions. We also propose a novel SirenNet-based architecture (CS-UNet) to learn an image-based conditional backward process in the latent SHDD space by minimizing a latent KL-divergence loss. To the best of our knowledge, LocDiff is the first image geolocalization model that performs latent diffusion in a multi-scale location encoding space and generates geolocations under the guidance of images. Experimental results show that LocDiff can outperform all state-of-the-art grid-based, retrieval-based, and diffusion-based baselines across 5 challenging global-scale image geolocalization datasets, and demonstrates significantly stronger generalizability to unseen geolocations.
- Abstract(参考訳): 画像のジオローカライゼーションは、画像が撮影されている地球上の位置情報を推測することを目的とした、基本的な課題である。
最先端の手法では、グリッドベースの分類とギャラリーベースの画像位置検索が採用されているが、その空間的一般化性は、テスト即年齢の空間的分布がグリッドやギャラリーの選択と一致しない場合に著しく低下する。
近年, グリッドやギャラリーを廃止しつつ, 地理的座標を生かし, マルチスケール情報の欠如による品質損失を被っている。
これらの制約に対処するため,画像位置情報化のためのLocDiffと呼ばれるマルチスケール潜伏拡散モデルを提案する。
我々は,球面上の点(例えば地球上の位置情報)を球面高調波係数のヒルベルト空間に符号化し,球面確率分布のモード探索により点(ジオロケーション)を復号する,Spherical Harmonics Dirac Delta (SHDD) Representationsという新しい位置符号化デコーディングフレームワークを開発した。
また,静止KL分割損失を最小限に抑え,画像ベースの条件付き後方処理を潜時SHDD空間で学習するための新しいSirenNetベースのアーキテクチャ(CS-UNet)を提案する。
我々の知る限りでは、LocDiffは、マルチスケールな位置符号化空間において潜時拡散を行い、画像の誘導の下で位置情報を生成する最初の画像ジオローカライズモデルである。
実験結果から,LocDiffは5つの挑戦的なグローバルな画像位置情報データセットにおいて,最先端のグリッドベース,検索ベース,拡散ベースベースラインをすべて上回ることができ,また,見つからない位置情報に対する一般化性が著しく向上することが示された。
関連論文リスト
- GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。
既存の手法は、しばしば完全に教師付き学習に依存している。
本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文 参考訳(メタデータ) (2025-07-15T03:00:15Z) - Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation [19.028122299569052]
地球上の視覚的位置は、画像が地球上でどこで撮影されたかを予測する。
本稿では,従来の地理的局在化と近代的生成手法のギャップを埋めることを目的としている。
本モデルは,3つの視覚的位置決めベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - Enhancing Worldwide Image Geolocation by Ensembling Satellite-Based Ground-Level Attribute Predictors [4.415977307120618]
本稿では,GPSなどの位置情報が存在しない場合の地上画像の位置を推定することの課題について検討する。
本稿では,推定位置分布の精度を計測する新しい指標であるリコール対エリア(Recall vs Area)を紹介する。
次に,複数の情報源からの情報を組み込んだグローバルな画像位置決め手法について検討する。
論文 参考訳(メタデータ) (2024-07-18T19:15:52Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z) - Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文 参考訳(メタデータ) (2021-02-18T07:07:03Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z) - Zero-Shot Multi-View Indoor Localization via Graph Location Networks [66.05980368549928]
屋内ローカライゼーションは、位置ベースアプリケーションにおける基本的な問題である。
本稿では,インフラストラクチャフリーで多視点画像に基づく屋内ローカライゼーションを実現するために,新しいニューラルネットワークアーキテクチャであるGraph Location Networks(GLN)を提案する。
GLNは、メッセージパッシングネットワークを通じて画像から抽出されたロバストな位置表現に基づいて位置予測を行う。
新たにゼロショット屋内ローカライズ設定を導入し,提案したGLNを専用ゼロショットバージョンに拡張することで,その課題に対処する。
論文 参考訳(メタデータ) (2020-08-06T07:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。