論文の概要: TIGeR: A Unified Framework for Time, Images and Geo-location Retrieval
- arxiv url: http://arxiv.org/abs/2603.24749v1
- Date: Wed, 25 Mar 2026 19:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.956718
- Title: TIGeR: A Unified Framework for Time, Images and Geo-location Retrieval
- Title(参考訳): TIGeR: 時間、画像、位置情報検索のための統一フレームワーク
- Authors: David G. Shatwell, Sirnam Swetha, Mubarak Shah,
- Abstract要約: デジタル法医学、都市モニタリング、環境分析における現実世界の応用には、視覚的外観、位置、時間に関する共同推論が必要である。
我々は、この問題をGeo-Time Aware Image Retrievalとして定式化し、トレーニング用の4.5Mペアイメージロケーションタイムトリップレットと、評価用の86k高品質トリップレットのベンチマークをキュレートする。
次に、画像、位置情報、時刻を統合された時空間埋め込み空間にマッピングするマルチモーダルトランスフォーマーモデルTIGeRを提案する。
- 参考スコア(独自算出の注目度): 47.16110829725784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications in digital forensics, urban monitoring, and environmental analysis require jointly reasoning about visual appearance, geolocation, and time. Beyond standard geo-localization and time-of-capture prediction, these applications increasingly demand more complex capabilities, such as retrieving an image captured at the same location as a query image but at a specified target time. We formalize this problem as Geo-Time Aware Image Retrieval and curate a diverse benchmark of 4.5M paired image-location-time triplets for training and 86k high-quality triplets for evaluation. We then propose TIGeR, a multi-modal-transformer-based model that maps image, geolocation, and time into a unified geo-temporal embedding space. TIGeR supports flexible input configurations (single-modality and multi-modality queries) and uses the same representation to perform (i) geo-localization, (ii) time-of-capture prediction, and (iii) geo-time-aware retrieval. By better preserving underlying location identity under large appearance changes, TIGeR enables retrieval based on where and when a scene is, rather than purely on visual similarity. Extensive experiments show that TIGeR consistently outperforms strong baselines and state-of-the-art methods by up to 16% on time-of-year, 8% time-of-day prediction, and 14% in geo-time aware retrieval recall, highlighting the benefits of unified geo-temporal modeling.
- Abstract(参考訳): デジタル法医学、都市モニタリング、環境分析における多くの現実世界の応用は、視覚的外観、位置、時間について共同で推論する必要がある。
標準的な地理的ローカライゼーションとキャプチャの時間予測以外にも、これらのアプリケーションは、クエリ画像と同じ場所でキャプチャされたイメージを、指定されたターゲット時間で取得するなど、より複雑な機能を要求するようになっている。
我々は、この問題をGeo-Time Aware Image Retrievalとして定式化し、トレーニング用4.5Mペア画像位置時三重項と評価用86k高品質三重項を多種多様なベンチマークで評価する。
次に、画像、位置情報、時刻を統合された時空間埋め込み空間にマッピングするマルチモーダルトランスフォーマーモデルTIGeRを提案する。
TIGeRはフレキシブルな入力構成(単一モダリティとマルチモダリティクエリ)をサポートし、同じ表現を使用して実行する。
(i)ジオローカライゼーション、
(二)捕獲時期予測、及び
(iii)ジオタイム・アウェア検索。
TIGeRは、大きな外観変化の下で位置識別をよりよく保存することにより、視覚的類似性ではなく、シーンがどこにあるか、いつあるかに基づいた検索を可能にする。
大規模な実験により、TIGeRは強いベースラインと最先端の手法を最大16%、時間予測8%、地理的に認識されたリコールリコールの14%で一貫したパフォーマンスを示し、統合された時空間モデリングの利点を強調している。
関連論文リスト
- GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction [21.94131531384186]
時空間予測のための新しいベンチマークであるGTPredを紹介する。
我々は年と階層的な位置配列マッチングを併用してMLLM予測を評価する。
また,時間情報の導入は位置情報の推測性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2026-01-19T16:34:25Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - GT-Loc: Unifying When and Where in Images Through a Joint Embedding Space [48.09196906704634]
GT-Locは、画像のキャプチャ時間(時間と月)と位置情報(GPS座標)を共同で予測する新しい検索ベースの手法である。
提案手法では,画像,時間,位置のエンコーダを分離し,その埋め込みを高次元特徴空間内に配置する。
論文 参考訳(メタデータ) (2025-07-14T16:54:57Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。