論文の概要: GeoX: Mastering Geospatial Reasoning Through Self-Play and Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2605.20006v1
- Date: Tue, 19 May 2026 15:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.491211
- Title: GeoX: Mastering Geospatial Reasoning Through Self-Play and Verifiable Rewards
- Title(参考訳): GeoX: 自己再生と検証可能なリワードを通じて地理空間推論をマスターする
- Authors: Kyeongjin Ahn, Seungeon Lee, Krishna P. Gummadi, Meeyoung Cha,
- Abstract要約: 地理空間的推論は、シーンの複雑な空間構造上の画像的問題を解く必要がある。
検証可能な報酬を得られる実行可能プログラムを通じて空間論理を取得するセルフプレイフレームワークであるGeoXを提案する。
- 参考スコア(独自算出の注目度): 15.806130935482443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geospatial reasoning requires solving image-grounded problems over the complex spatial structure of a scene. However, developing this capability is hindered by the cost of annotating a vast and combinatorial question space. We propose GeoX, a self-play framework that acquires spatial logic through executable programs that yield verifiable rewards, without relying on large-scale human-curated data Given a satellite or aerial image, our framework employs a single multimodal policy that proposes spatial problems as executable programs and solves them under three reasoning modes-abduction, deduction, and induction-over spatial primitives and an image understanding tool. A verifier executes each program to covert a reward signal that jointly optimizes the two roles via reinforcement learning. GeoX consistently improves its base VLMs by up to 5.5 points on average, matching or exceeding conventional baselines trained on millions of curated data. Along-side the proposed method, we release a benchmark for geospatial understanding accumulated through self-play.
- Abstract(参考訳): 地理空間的推論は、シーンの複雑な空間構造上の画像的問題を解く必要がある。
しかし、この能力の開発は、膨大な複合的な問題空間に注釈を付けるコストによって妨げられている。
衛星や空中画像が与えられた場合,我々は,空間問題を実行可能なプログラムとして提案し,これらを3つの推論モードで解き,帰納的空間プリミティブと画像理解ツールで解決する,単一のマルチモーダルポリシーを採用している。
検証者は、強化学習を介して2つの役割を共同最適化する報奨信号を隠すために各プログラムを実行する。
GeoXは、数百万のキュレートされたデータに基づいて訓練された従来のベースラインと一致するか、あるいは超えるように、平均5.5ポイントのベースVLMを一貫して改善している。
提案手法と並行して,自己再生により蓄積した地理空間的理解のためのベンチマークを作成した。
関連論文リスト
- ReaGeo: Reasoning-Enhanced End-to-End Geocoding with LLMs [8.089023511080248]
本稿では,大規模言語モデルに基づくエンドツーエンドのジオコーディングフレームワークReaGeoを提案する。
この方法は、座標をジオハッシュシーケンスに変換し、座標予測タスクをテキスト生成問題として再構成する。
距離決定に基づく報酬を用いた強化学習を適用し、生成精度を最適化する。
論文 参考訳(メタデータ) (2026-04-23T07:18:21Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - GeoJEPA: Towards Eliminating Augmentation- and Sampling Bias in Multimodal Geospatial Learning [0.0]
自己教師型統合埋め込み予測アーキテクチャ上に構築された地理空間データのための多目的多モード融合モデルであるGeoJEPAを提案する。
我々は,自己教師付き地理空間表現学習において広く受け入れられている増分とサンプリングバイアスを排除することを目的としている。
その結果,都市域のマルチモーダルな意味表現と,定量的かつ質的に評価するマップエンティティが得られた。
論文 参考訳(メタデータ) (2025-02-25T22:03:28Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions [5.053463027769152]
空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。
構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。
応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
論文 参考訳(メタデータ) (2025-02-04T01:30:06Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。