論文の概要: GeoToken: Hierarchical Geolocalization of Images via Next Token Prediction
- arxiv url: http://arxiv.org/abs/2511.01082v1
- Date: Sun, 02 Nov 2025 21:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.057412
- Title: GeoToken: Hierarchical Geolocalization of Images via Next Token Prediction
- Title(参考訳): GeoToken: 次のToken予測による画像の階層的ジオローカライズ
- Authors: Narges Ghasemi, Amir Ziashahabi, Salman Avestimehr, Cyrus Shahabi,
- Abstract要約: 本研究では,ヒトが広い地域から特定の住所まで場所を狭める方法に着想を得た階層的シーケンス予測手法を提案する。
本手法では, ネストした多解像度グローバルグリッドであるS2セルを用いて, 視覚入力と過去の予測に基づいて, より微細なセルを逐次予測する。
我々は,Im2GPS3kとYFCC4kのデータセットを2つの異なるベースラインに対して評価した。
- 参考スコア(独自算出の注目度): 23.767061975974134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image geolocalization, the task of determining an image's geographic origin, poses significant challenges, largely due to visual similarities across disparate locations and the large search space. To address these issues, we propose a hierarchical sequence prediction approach inspired by how humans narrow down locations from broad regions to specific addresses. Analogously, our model predicts geographic tokens hierarchically, first identifying a general region and then sequentially refining predictions to increasingly precise locations. Rather than relying on explicit semantic partitions, our method uses S2 cells, a nested, multiresolution global grid, and sequentially predicts finer-level cells conditioned on visual inputs and previous predictions. This procedure mirrors autoregressive text generation in large language models. Much like in language modeling, final performance depends not only on training but also on inference-time strategy. We investigate multiple top-down traversal methods for autoregressive sampling, incorporating techniques from test-time compute scaling used in language models. Specifically, we integrate beam search and multi-sample inference while exploring various selection strategies to determine the final output. This enables the model to manage uncertainty by exploring multiple plausible paths through the hierarchy. We evaluate our method on the Im2GPS3k and YFCC4k datasets against two distinct sets of baselines: those that operate without a Multimodal Large Language Model (MLLM) and those that leverage one. In the MLLM-free setting, our model surpasses other comparable baselines on nearly all metrics, achieving state-of-the-art performance with accuracy gains of up to 13.9%. When augmented with an MLLM, our model outperforms all baselines, setting a new state-of-the-art across all metrics. The source code is available at https://github.com/NNargesNN/GeoToken.
- Abstract(参考訳): 画像の地理的起源を決定するタスクである画像のジオローカライゼーションは、主に異なる場所と大きな検索空間をまたいだ視覚的類似性によって、大きな課題を生んでいる。
これらの問題に対処するために,ヒトが広い地域から特定の住所まで場所を狭める方法に着想を得た階層的シーケンス予測手法を提案する。
類似して、我々のモデルは地理的トークンを階層的に予測し、まず一般的な領域を特定し、次により正確な位置への予測を逐次修正する。
明示的なセマンティックパーティションに頼るのではなく、ネストされた多解像度グローバルグリッドであるS2セルを使用し、視覚入力や過去の予測に基づいて、より詳細なセルを逐次予測する。
この手順は、大規模言語モデルにおける自己回帰テキスト生成を反映する。
言語モデリングと同様に、最終的なパフォーマンスはトレーニングだけでなく、推論時の戦略にも依存します。
自動回帰サンプリングのための複数のトップダウントラバース法について検討し、言語モデルで使用されるテスト時間計算スケーリングの手法を取り入れた。
具体的には、ビームサーチとマルチサンプル推論を統合し、最終的な出力を決定するための様々な選択戦略を探索する。
これにより、階層構造を通して複数の可視パスを探索することで、不確実性を管理することができる。
本手法は,Multimodal Large Language Model (MLLM) を使わずに動作するものと,それを利用するものとの2つの異なるベースラインに対して,Im2GPS3kおよびYFCC4kデータセットを用いて評価する。
MLLMフリー環境では、我々のモデルは、ほぼすべてのメトリクスにおいて他の同等のベースラインを超え、最先端のパフォーマンスを最大13.9%の精度で達成する。
MLLMで拡張すると、私たちのモデルはすべてのベースラインを上回り、すべてのメトリクスで新しい最先端の設定を行います。
ソースコードはhttps://github.com/NNargesNN/GeoToken.comで入手できる。
関連論文リスト
- Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation [9.161203553842787]
画像位置情報をテキスト生成タスクとして再定義する新しいシステムであるImg2Locを提案する。
Img2LocはまずCLIPベースの表現を使用して画像ベースの座標クエリデータベースを生成する。
そして、クエリ結果と画像自体を一意に結合し、LMM用にカスタマイズされた精巧なプロンプトを形成する。
Im2GPS3kやYFCC4kのようなベンチマークデータセットでテストする場合、Img2Locは従来の最先端モデルのパフォーマンスを上回るだけでなく、モデルトレーニングなしでテストする。
論文 参考訳(メタデータ) (2024-03-28T17:07:02Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Predicting the Geolocation of Tweets Using transformer models on Customized Data [17.55660062746406]
本研究は、ツイート/ユーザ位置情報予測タスクを解決することを目的としている。
提案手法は、自然言語処理のためのニューラルネットワークを実装し、位置を推定する。
提案されたモデルの範囲は、Twitterデータセットで微調整されている。
論文 参考訳(メタデータ) (2023-03-14T12:56:47Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - Learning Independent Instance Maps for Crowd Localization [44.6430092887941]
Independent Instance Map segmentation (IIM) という,クラウドローカライゼーションのためのエンドツーエンドかつ簡単なフレームワークを提案する。
IIMセグメントは独立した接続コンポーネントに群集し、位置と群集数を得ます。
異なる密度領域のセグメンテーション品質を向上させるために,微分可能二元化モジュール(bm)を提案する。
BMはローカライズモデルに2つの利点をもたらす: 1) 異なる画像のしきい値マップを適応的に学習し、各インスタンスをより正確に検出する; 2) バイナリ予測とラベルの損失を使ってモデルを直接訓練する。
論文 参考訳(メタデータ) (2020-12-08T02:17:19Z) - Combining Deep Learning and String Kernels for the Localization of Swiss
German Tweets [28.497747521078647]
2番目のサブタスクは、約3万のスイスのドイツのJodelからなるデータセットをターゲットにしています。
我々は、このタスクを2重回帰問題とみなし、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを採用している。
実験結果から,文字列カーネルに基づく手作りモデルの方が,ディープラーニングのアプローチよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-10-07T19:16:45Z) - Multi-Scale Representation Learning for Spatial Feature Distributions
using Grid Cells [11.071527762096053]
本研究では,位置の絶対位置と空間的関係を符号化するスペース2Vecという表現学習モデルを提案する。
その結果、Space2Vecはマルチスケール表現のため、確立されたMLアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-16T04:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。