論文の概要: Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.00072v1
- Date: Mon, 29 Sep 2025 21:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.160527
- Title: Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning
- Title(参考訳): Geo-R1: クロスビュー強化学習によるVLM地理空間推論
- Authors: Chenhui Xu, Fuxun Yu, Michael J. Bianco, Jacob Kovarskiy, Raphael Tang, Qi Zhang, Zirui Xu, Will LeVine, Brandon Dubbs, Heming Liao, Cassandra Burgess, Suvam Bag, Jay Patravali, Rupanjali Kukal, Mikael Figueroa, Rishi Madhok, Nikolaos Karianakis, Jinjun Xiong,
- Abstract要約: 視覚言語モデルにおける地理空間的推論を解き放つ推論中心のポストトレーニングフレームワークであるGeo-R1を紹介する。
足場形成の段階では、Geo-R1は、シンセサイザーチェーン・オブ・シンセサイザー(synthetic chain-of-thinkt exemplars)の教師付き微調整を通じて、地理空間的思考パラダイムを注入する。
昇降段階では、弱い教師付きクロスビューペアリングプロキシ上でGRPOベースの強化学習を使用する。
- 参考スコア(独自算出の注目度): 26.869573782008217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Geo-R1, a reasoning-centric post-training framework that unlocks geospatial reasoning in vision-language models by combining thinking scaffolding and elevating. In the scaffolding stage, Geo-R1 instills a ``geospatial thinking paradigm" via supervised fine-tuning on synthetic chain-of-thought exemplars, enabling models to connect visual cues with geographic priors without costly human reasoning annotations. In the elevating stage, it uses GRPO-based reinforcement learning on a weakly-supervised cross-view pairing proxy. This design supplies a verifiable and scalable reward signal: teaching models to capture and reconcile features across modalities, and harnessing reasoning for accurate prediction. Geo-R1 extends geospatial modeling from domain pretraining / supervised finetuning to reasoning-first post-training, and achieves state-of-the-art performance across various geospatial reasoning benchmarks. Our model is available at https://huggingface.co/miniHui/Geo-R1.
- Abstract(参考訳): 思考の足場と高揚を組み合わせ,視覚モデルにおける地理空間的推論を解き放つ推論中心のポストトレーニングフレームワークであるGeo-R1を紹介する。
足場化の段階では、Geo-R1は合成チェーン・オブ・シンセサイザーの微調整を通じて「地理空間的思考パラダイム」を注入する。
昇降段階では、弱い教師付きクロスビューペアリングプロキシ上でGRPOベースの強化学習を使用する。
この設計は、検証可能でスケーラブルな報酬信号を提供する: モデルに、モダリティをまたいだ特徴を捉え、調整し、正確な予測のために推論を利用するように教える。
Geo-R1は、ドメイン事前訓練/教師付き微調整から推論第一訓練まで地理空間モデリングを拡張し、様々な地理空間推論ベンチマークで最先端のパフォーマンスを実現する。
私たちのモデルはhttps://huggingface.co/miniHui/Geo-R1.comで利用可能です。
関連論文リスト
- Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models [8.021952962029165]
リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T11:34:42Z) - Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning [37.90271368636318]
リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
論文 参考訳(メタデータ) (2025-09-26T07:01:12Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - RAG for Geoscience: What We Expect, Gaps and Opportunities [15.069356714106808]
Retrieval-Augmented Generation (RAG)は、検索と生成を組み合わせることで言語モデルを強化する。
次世代のパラダイムであるGeo-RAGは、RAGをモジュラー検索の$rightarrow$ reason $rightarrow$ generate $rightarrow$ verify loopとして再定義する。
Geo-RAGは、(i)マルチモーダル地球データの検索、(ii)物理および領域制約下での推論、(iii)科学グレードのアーティファクトの生成、(iv)数値モデル、地上測定、エキスパートアセスメントに対する生成仮説の検証の4つのコア機能をサポートしている。
論文 参考訳(メタデータ) (2025-08-15T06:33:27Z) - GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。
物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文 参考訳(メタデータ) (2025-08-06T04:45:34Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Assessment of a new GeoAI foundation model for flood inundation mapping [4.312965283062856]
そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。
実験では、ベンチマークデータセットであるSen1Floods11を使用し、モデルの予測可能性、一般化可能性、転送可能性を評価する。
以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。
論文 参考訳(メタデータ) (2023-09-25T19:50:47Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。