論文の概要: LocDiffusion: Identifying Locations on Earth by Diffusing in the Hilbert Space
- arxiv url: http://arxiv.org/abs/2503.18142v1
- Date: Sun, 23 Mar 2025 17:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:42.263705
- Title: LocDiffusion: Identifying Locations on Earth by Diffusing in the Hilbert Space
- Title(参考訳): LocDiffusion:ヒルベルト空間における拡散による地球上の位置の同定
- Authors: Zhangyu Wang, Jielu Zhang, Zhongliang Zhou, Qian Cao, Nemin Wu, Zeping Liu, Lan Mu, Yang Song, Yiqun Xie, Ni Lao, Gengchen Mai,
- Abstract要約: 画像ジオローカライズのためのメカニズムとして拡散を利用する手法を提案する。
拡散における問題のある多様体再生成のステップを避けるため,我々は新しい球面位置符号化・復号化フレームワークを開発した。
我々は、画像の誘導の下で位置を生成するLocDiffusionと呼ばれる条件付き潜伏拡散モデルを訓練する。
- 参考スコア(独自算出の注目度): 10.342723428164412
- License:
- Abstract: Image geolocalization is a fundamental yet challenging task, aiming at inferring the geolocation on Earth where an image is taken. Existing methods approach it either via grid-based classification or via image retrieval. Their performance significantly suffers when the spatial distribution of test images does not align with such choices. To address these limitations, we propose to leverage diffusion as a mechanism for image geolocalization. To avoid the problematic manifold reprojection step in diffusion, we developed a novel spherical positional encoding-decoding framework, which encodes points on a spherical surface (e.g., geolocations on Earth) into a Hilbert space of Spherical Harmonics coefficients and decodes points (geolocations) by mode-seeking. We call this type of position encoding Spherical Harmonics Dirac Delta (SHDD) Representation. We also propose a novel SirenNet-based architecture called CS-UNet to learn the conditional backward process in the latent SHDD space by minimizing a latent KL-divergence loss. We train a conditional latent diffusion model called LocDiffusion that generates geolocations under the guidance of images -- to the best of our knowledge, the first generative model for image geolocalization by diffusing geolocation information in a hidden location embedding space. We evaluate our method against SOTA image geolocalization baselines. LocDiffusion achieves competitive geolocalization performance and demonstrates significantly stronger generalizability to unseen geolocations.
- Abstract(参考訳): 画像のジオローカライゼーションは、画像が撮影されている地球上の位置情報を推測することを目的とした、基本的な課題である。
既存の手法はグリッドベースの分類や画像検索によってアプローチする。
実験画像の空間分布がそのような選択と一致しない場合, その性能は著しく低下する。
これらの制約に対処するため,画像のジオローカライズのためのメカニズムとして拡散を利用する手法を提案する。
拡散における問題のある多様体の再射を回避するために,球面上の点(例えば地球上の位置情報)を球高調波係数のヒルベルト空間に符号化し,モード探索により点(ジオロケーション)を復号する,新しい球面位置符号化デコーディングフレームワークを開発した。
Spherical Harmonics Dirac Delta (SHDD) Representation と呼ぶ。
また、CS-UNetと呼ばれる新しいSirenNetアーキテクチャを提案し、潜在KL分散損失を最小限に抑えて、潜伏SHDD空間の条件付き後方処理を学習する。
我々は,画像の誘導の下で位置情報を生成するLocDiffusionと呼ばれる条件付き潜伏拡散モデルを訓練する。
我々は,SOTA画像のジオローカライゼーションベースラインに対する提案手法の評価を行った。
LocDiffusionは、競争力のあるジオローカライゼーション性能を達成し、目に見えないジオロケーションに対するはるかに強力な一般化性を示す。
関連論文リスト
- Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation [19.028122299569052]
地球上の視覚的位置は、画像が地球上でどこで撮影されたかを予測する。
本稿では,従来の地理的局在化と近代的生成手法のギャップを埋めることを目的としている。
本モデルは,3つの視覚的位置決めベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-09T18:59:04Z) - Enhancing Worldwide Image Geolocation by Ensembling Satellite-Based Ground-Level Attribute Predictors [4.415977307120618]
本稿では,GPSなどの位置情報が存在しない場合の地上画像の位置を推定することの課題について検討する。
本稿では,推定位置分布の精度を計測する新しい指標であるリコール対エリア(Recall vs Area)を紹介する。
次に,複数の情報源からの情報を組み込んだグローバルな画像位置決め手法について検討する。
論文 参考訳(メタデータ) (2024-07-18T19:15:52Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z) - Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文 参考訳(メタデータ) (2021-02-18T07:07:03Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z) - Zero-Shot Multi-View Indoor Localization via Graph Location Networks [66.05980368549928]
屋内ローカライゼーションは、位置ベースアプリケーションにおける基本的な問題である。
本稿では,インフラストラクチャフリーで多視点画像に基づく屋内ローカライゼーションを実現するために,新しいニューラルネットワークアーキテクチャであるGraph Location Networks(GLN)を提案する。
GLNは、メッセージパッシングネットワークを通じて画像から抽出されたロバストな位置表現に基づいて位置予測を行う。
新たにゼロショット屋内ローカライズ設定を導入し,提案したGLNを専用ゼロショットバージョンに拡張することで,その課題に対処する。
論文 参考訳(メタデータ) (2020-08-06T07:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。