論文の概要: GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes
- arxiv url: http://arxiv.org/abs/2511.22645v1
- Date: Thu, 27 Nov 2025 17:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.662546
- Title: GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes
- Title(参考訳): GeoZero: 地理空間シーンにおけるスクラッチからの推論のインセンティブ
- Authors: Di Wang, Shunyu Liu, Wentao Jiang, Fengxiang Wang, Yi Liu, Xiaolei Qin, Zhiming Luo, Chaoyang Zhou, Haonan Guo, Jing Zhang, Bo Du, Dacheng Tao, Liangpei Zhang,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は地理空間的シーン理解の進展において急速な発展を遂げている。
近年、リモートセンシングMLLMの推論能力の向上が試みられ、典型的には、精巧にキュレートされたチェーン・オブ・シント(CoT)データによるコールドスタートトレーニングによって実現されている。
MLLMが事前に定義されたCoTの監督なしに地理空間推論を行うことを可能にするフレームワークであるGeoZeroを提案する。
- 参考スコア(独自算出の注目度): 84.52881742231152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have undergone rapid development in advancing geospatial scene understanding. Recent studies have sought to enhance the reasoning capabilities of remote sensing MLLMs, typically through cold-start training with elaborately curated chain-of-thought (CoT) data. However, this approach not only incurs substantial annotation costs but also introduces human biases that may limit the diversity of model reasoning. To address these challenges, we propose GeoZero, a framework that enables MLLMs to perform geospatial reasoning without any predefined CoT supervision. Specifically, we construct two datasets, GeoZero-Instruct and GeoZero-Hard. GeoZero-Instruct allows the model to acquire preliminary geospatial knowledge through supervised fine-tuning, while GeoZero-Hard stimulates deep reasoning during the subsequent reinforcement learning stage. Furthermore, we introduce Answer-Anchored Group Relative Policy Optimization (A$^2$GRPO), where the reasoning process is regularized by the model's own answers, encouraging diverse yet accurate thinking. Extensive experiments on multiple remote sensing vision-language benchmarks demonstrate that GeoZero not only surpasses existing state-of-the-art methods but also fosters universal emergent reasoning capabilities across diverse geospatial tasks. Code,data,and models will be publicly available at https://github.com/MiliLab/GeoZero.
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は地理空間的シーン理解の進展において急速な発展を遂げている。
近年、リモートセンシングMLLMの推論能力の向上が試みられ、典型的には、精巧にキュレートされたチェーン・オブ・シント(CoT)データによるコールドスタートトレーニングによって実現されている。
しかし、このアプローチは重要なアノテーションコストを発生させるだけでなく、モデル推論の多様性を制限する人間のバイアスも導入する。
このような課題に対処するために,事前に定義されたCoTの監督なしにMLLMが地理空間的推論を行うことを可能にするフレームワークであるGeoZeroを提案する。
具体的には,GeoZero-InstructとGeoZero-Hardという2つのデータセットを構築した。
GeoZero-Instructでは、教師付き微調整によって予備的な地理空間知識を得ることができ、GeoZero-Hardはその後の強化学習段階で深い推論を刺激する。
さらに,Answer-Anchored Group Relative Policy Optimization (A$^2$GRPO)を導入する。
複数のリモートセンシングビジョン言語ベンチマークに関する大規模な実験は、GeoZeroが既存の最先端手法を超えるだけでなく、多様な地理空間的タスクにまたがる普遍的創発的推論能力を促進することを実証している。
コード、データ、モデルはhttps://github.com/MiliLab/GeoZero.comで公開される。
関連論文リスト
- Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning [26.869573782008217]
視覚言語モデルにおける地理空間的推論を解き放つ推論中心のポストトレーニングフレームワークであるGeo-R1を紹介する。
足場形成の段階では、Geo-R1は、シンセサイザーチェーン・オブ・シンセサイザー(synthetic chain-of-thinkt exemplars)の教師付き微調整を通じて、地理空間的思考パラダイムを注入する。
昇降段階では、弱い教師付きクロスビューペアリングプロキシ上でGRPOベースの強化学習を使用する。
論文 参考訳(メタデータ) (2025-09-29T21:34:55Z) - Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning [37.90271368636318]
リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:01:12Z) - TurnBack: A Geospatial Route Cognition Benchmark for Large Language Models through Reverse Route [45.16008377814563]
世界中の12の都市から36000のルートからなる大規模評価データセットを作成しました。
自然言語命令をナビゲーションルートに変換する新しいツールであるPathBuilderを紹介する。
経路反転の課題に対して,11のSOTA (State-of-the-art) LLMを厳格に評価する。
論文 参考訳(メタデータ) (2025-09-17T15:00:03Z) - GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [20.788130896943663]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - GeoGalactica: A Scientific Large Language Model in Geoscience [95.15911521220052]
大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
次に、100万対の命令チューニングでモデルを微調整する。
論文 参考訳(メタデータ) (2023-12-31T09:22:54Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。