論文の概要: GT-Loc: Unifying When and Where in Images Through a Joint Embedding Space
- arxiv url: http://arxiv.org/abs/2507.10473v1
- Date: Mon, 14 Jul 2025 16:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.55915
- Title: GT-Loc: Unifying When and Where in Images Through a Joint Embedding Space
- Title(参考訳): GT-Loc:共同埋め込みスペースで画像の時間と場所を統一する
- Authors: David G. Shatwell, Ishan Rajendrakumar Dave, Sirnam Swetha, Mubarak Shah,
- Abstract要約: GT-Locは、画像のキャプチャ時間(時間と月)と位置情報(GPS座標)を共同で予測する新しい検索ベースの手法である。
提案手法では,画像,時間,位置のエンコーダを分離し,その埋め込みを高次元特徴空間内に配置する。
- 参考スコア(独自算出の注目度): 48.09196906704634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Timestamp prediction aims to determine when an image was captured using only visual information, supporting applications such as metadata correction, retrieval, and digital forensics. In outdoor scenarios, hourly estimates rely on cues like brightness, hue, and shadow positioning, while seasonal changes and weather inform date estimation. However, these visual cues significantly depend on geographic context, closely linking timestamp prediction to geo-localization. To address this interdependence, we introduce GT-Loc, a novel retrieval-based method that jointly predicts the capture time (hour and month) and geo-location (GPS coordinates) of an image. Our approach employs separate encoders for images, time, and location, aligning their embeddings within a shared high-dimensional feature space. Recognizing the cyclical nature of time, instead of conventional contrastive learning with hard positives and negatives, we propose a temporal metric-learning objective providing soft targets by modeling pairwise time differences over a cyclical toroidal surface. We present new benchmarks demonstrating that our joint optimization surpasses previous time prediction methods, even those using the ground-truth geo-location as an input during inference. Additionally, our approach achieves competitive results on standard geo-localization tasks, and the unified embedding space facilitates compositional and text-based image retrieval.
- Abstract(参考訳): タイムスタンプ予測は、メタデータの修正、検索、デジタル法医学などの応用をサポートする視覚情報のみを用いて、画像がいつ取得されたかを決定することを目的としている。
屋外のシナリオでは、時間ごとの見積もりは明るさ、色合い、影の位置といった手がかりに依存し、季節的な変化と天気は日付を推定する。
しかし、これらの視覚的手がかりは地理的文脈に大きく依存し、タイムスタンプ予測と地理的局所化を密接に関連付けている。
この相互依存に対処するため,画像の取得時間(時間と月)と位置情報(GPS座標)を共同で予測する新しい検索手法であるGT-Locを導入する。
提案手法では,画像,時間,位置のエンコーダを分離し,その埋め込みを高次元特徴空間内に配置する。
本研究では, 周期的トロイダル表面上での時間差をモデル化し, 時間的時間的差をモデル化することにより, ソフトターゲットを提供する時間的計量学習目標を提案する。
提案手法は,提案手法が従来の時間予測手法を超越していることを示す新しいベンチマークである。
さらに,本手法は,標準ジオローカライズタスクにおける競合的な結果を達成し,統合埋め込み空間は合成とテキストによる画像検索を容易にする。
関連論文リスト
- REPLAY: Modeling Time-Varying Temporal Regularities of Human Mobility for Location Prediction over Sparse Trajectories [7.493786214342181]
位置予測のための時間変化の時間的規則性を把握するための一般RNNアーキテクチャ学習であるREPLAYを提案する。
特に、REPLAYは、情報の隠された過去の状態を探すために、スパース軌跡の距離を利用するだけでなく、時間変化の時間的規則性も許容する。
その結果、REPLAYは、位置予測タスクにおいて、最先端の手法を7.7%-10.5%向上させる。
論文 参考訳(メタデータ) (2024-02-26T05:28:36Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - Geo-Adaptive Deep Spatio-Temporal predictive modeling for human mobility [5.864710987890994]
深部GA-vLSは、データが不規則なデータを扱うという課題に直面し、定形かつ規則的なテンソル形状のデータを仮定する。
本稿では,その再帰的メカニズムを維持しつつ,新たなデータ構造に基づくジオアウェアな学習操作を提案する。
論文 参考訳(メタデータ) (2022-11-27T16:51:28Z) - Cross-View Image Sequence Geo-localization [6.555961698070275]
クロスビュージオローカライゼーションは,クエリ基底画像のGPS位置を推定することを目的としている。
最近のアプローチでは、パノラマ画像を用いて視界範囲を拡大している。
本研究では、フィールド-オフ-ビューの限られた画像のシーケンスで動作する、最初のクロスビューなジオローカライズ手法を提案する。
論文 参考訳(メタデータ) (2022-10-25T19:46:18Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - Reference Pose Generation for Long-term Visual Localization via Learned
Features and View Synthesis [88.80710311624101]
本稿では,3次元モデルのレンダリングと実画像の特徴マッチングに基づく参照ポーズを生成するための半自動アプローチを提案する。
我々は、Aachen Day-Nightデータセットの夜間参照ポーズを大幅に改善し、最先端の視覚的ローカライゼーション手法が、オリジナルの参照ポーズによって予測されるよりも優れた(最大47%の)性能を示すことを示した。
論文 参考訳(メタデータ) (2020-05-11T15:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。