Fugu-MT 論文翻訳(概要): Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

論文の概要: Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

arxiv url: http://arxiv.org/abs/2412.06781v1
Date: Mon, 09 Dec 2024 18:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.488869
Title: Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation
Title（参考訳）: 80のタイムステップで世界を取り巻く:グローバルなビジュアルジオロケーションへの創成的アプローチ
Authors: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu,
Abstract要約: 地球上の視覚的位置は、画像が地球上でどこで撮影されたかを予測する。本稿では,従来の地理的局在化と近代的生成手法のギャップを埋めることを目的としている。本モデルは,3つの視覚的位置決めベンチマークにおいて,最先端の性能を実現する。
参考スコア（独自算出の注目度）: 19.028122299569052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Global visual geolocation predicts where an image was captured on Earth. Since images vary in how precisely they can be localized, this task inherently involves a significant degree of ambiguity. However, existing approaches are deterministic and overlook this aspect. In this paper, we aim to close the gap between traditional geolocalization and modern generative methods. We propose the first generative geolocation approach based on diffusion and Riemannian flow matching, where the denoising process operates directly on the Earth's surface. Our model achieves state-of-the-art performance on three visual geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition, we introduce the task of probabilistic visual geolocation, where the model predicts a probability distribution over all possible locations instead of a single point. We introduce new metrics and baselines for this task, demonstrating the advantages of our diffusion-based approach. Codes and models will be made available.
Abstract（参考訳）: 地球上の視覚的位置は、画像が地球上でどこで撮影されたかを予測する。画像の局所化の精度は異なるため、このタスクは本質的にかなりのあいまいさを伴っている。しかし、既存のアプローチは決定論的であり、この側面を見落としている。本稿では,従来の地理的局在化と近代的生成手法のギャップを埋めることを目的としている。本研究では,拡散とリーマン流のマッチングに基づく最初の生成的位置決め手法を提案する。提案モデルは,OpenStreetView-5M,YFCC-100M,iNat21の3つのビジュアルジオロケーションベンチマークにおいて,最先端のパフォーマンスを実現する。さらに,モデルが単一点ではなく,可能なすべての位置の確率分布を予測する確率的視覚的位置決めのタスクを導入する。我々は,この課題に対する新たな指標とベースラインを導入し,拡散に基づくアプローチの利点を実証する。コードとモデルは利用可能になる。

関連論文リスト

LocDiffusion: Identifying Locations on Earth by Diffusing in the Hilbert Space [10.342723428164412]
画像ジオローカライズのためのメカニズムとして拡散を利用する手法を提案する。拡散における問題のある多様体再生成のステップを避けるため,我々は新しい球面位置符号化・復号化フレームワークを開発した。我々は、画像の誘導の下で位置を生成するLocDiffusionと呼ばれる条件付き潜伏拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-03-23T17:15:26Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。 GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文参考訳（メタデータ） (2024-06-04T02:59:36Z)
Mapping High-level Semantic Regions in Indoor Environments without Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文参考訳（メタデータ） (2024-03-11T18:09:50Z)
CurriculumLoc: Enhancing Cross-Domain Geolocalization through Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文参考訳（メタデータ） (2023-11-20T08:40:01Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文参考訳（メタデータ） (2023-07-11T23:36:49Z)
Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2023-03-28T01:58:03Z)
G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文参考訳（メタデータ） (2022-11-28T16:34:40Z)
Leveraging Selective Prediction for Reliable Image Geolocation [6.453278464902654]
画像のローカライズ可能性、すなわち画像の位置情報への適合性を定義する。本稿では,タスクに対処する選択的な予測手法を提案する。非ローカライズ可能な画像の予測を控えることで、都市規模での位置情報の精度を27.8%から70.5%に改善する。
論文参考訳（メタデータ） (2021-11-23T15:46:12Z)
Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-08-26T16:06:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。