Fugu-MT 論文翻訳(概要): GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

論文の概要: GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

arxiv url: http://arxiv.org/abs/2505.18700v2
Date: Mon, 09 Jun 2025 13:46:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.134194
Title: GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains
Title（参考訳）: GRE Suite: 微調整型ビジョンランゲージモデルと強化推論チェーンによるジオローカライズ推論
Authors: Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song,
Abstract要約: Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
参考スコア（独自算出の注目度）: 11.704082783192467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Visual Language Models (VLMs) have demonstrated exceptional performance in visual reasoning tasks. However, geo-localization presents unique challenges, requiring the extraction of multigranular visual cues from images and their integration with external world knowledge for systematic reasoning. Current approaches to geo-localization tasks often lack robust reasoning mechanisms and explainability, limiting their effectiveness. To address these limitations, we propose the Geo Reason Enhancement (GRE) Suite, a novel framework that augments VLMs with structured reasoning chains for accurate and interpretable location inference. The GRE Suite is systematically developed across three key dimensions: dataset, model, and benchmark. First, we introduce GRE30K, a high-quality geo-localization reasoning dataset designed to facilitate fine-grained visual and contextual analysis. Next, we present the GRE model, which employs a multi-stage reasoning strategy to progressively infer scene attributes, local details, and semantic features, thereby narrowing down potential geographic regions with enhanced precision. Finally, we construct the Geo Reason Evaluation Benchmark (GREval-Bench), a comprehensive evaluation framework that assesses VLMs across diverse urban, natural, and landmark scenes to measure both coarse-grained (e.g., country, continent) and fine-grained (e.g., city, street) localization performance. Experimental results demonstrate that GRE significantly outperforms existing methods across all granularities of geo-localization tasks, underscoring the efficacy of reasoning-augmented VLMs in complex geographic inference. Code and data will be released at https://github.com/Thorin215/GRE.
Abstract（参考訳）: 視覚言語モデル(VLM)の最近の進歩は、視覚的推論タスクにおいて例外的な性能を示している。しかし、ジオローカライゼーションは、画像から多粒度の視覚的手がかりを抽出し、体系的推論のために外部世界の知識と統合する必要があるというユニークな課題を呈している。ジオローカライゼーションタスクへの現在のアプローチは、しばしば堅牢な推論機構と説明可能性に欠け、その効果を制限している。これらの制約に対処するため、我々はGeo Reason Enhancement (GRE) Suiteを提案する。 GRE Suiteは、データセット、モデル、ベンチマークの3つの重要な側面で体系的に開発されている。まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。最後に,GREval-Bench(Geo Reason Evaluation Benchmark)を構築し,都市,自然,ランドマークの様々な場面でVLMを評価し,粗粒度(例えば,国,大陸)と細粒度(例えば,都市,街路)の両方を計測する総合評価フレームワークを構築した。実験の結果,GREは地理的局所化タスクのすべての粒度で既存手法よりも優れており,複雑な地理的推論における推論強化VLMの有効性が示唆された。コードとデータはhttps://github.com/Thorin215/GREで公開される。

関連論文リスト

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文参考訳（メタデータ） (2026-02-13T04:48:05Z)
Large Language Models for Geolocation Extraction in Humanitarian Crisis Response [0.0]
本稿では,大規模言語モデルが人文的文書から位置情報を抽出する際の地理的格差に対処できるかどうかを検討する。 LLMをベースとした名前付きエンティティ認識とエージェントベースのジオコーディングモジュールを組み合わせた2段階のフレームワークを提案する。その結果,LLM法は人道的テキストからの位置抽出の精度と公平性の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2026-02-09T16:34:25Z)
Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach [41.001581773172695]
提案するGeo-Rは,既存の接地トラス座標から構造的推論経路を明らかにする,検索不要なフレームワークである。本稿では,ルールに基づく階層的推論パラダイムである領域の連鎖を提案する。提案手法は,空間的直接監視による地理的推論を構造化し,位置推定精度の向上,一般化の強化,透過的な推論を行う。
論文参考訳（メタデータ） (2026-01-01T16:51:41Z)
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文参考訳（メタデータ） (2025-11-19T18:59:22Z)
GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文参考訳（メタデータ） (2025-08-06T04:45:34Z)
From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文参考訳（メタデータ） (2025-08-03T06:04:33Z)
Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [27.848962405476108]
新しいパイプラインは、さまざまなソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。そこで我々はGLOBE, グループ関連ポリシー最適化, 可視性評価, ビジュアル・キュー推論の最適化について紹介する。その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-06-17T16:07:58Z)
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions [5.053463027769152]
空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
論文参考訳（メタデータ） (2025-02-04T01:30:06Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-06-03T17:59:06Z)
GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文参考訳（メタデータ） (2023-05-11T03:21:56Z)
Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文参考訳（メタデータ） (2022-03-16T11:55:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。