論文の概要: Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.00072v1
- Date: Mon, 29 Sep 2025 21:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.160527
- Title: Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning
- Title(参考訳): Geo-R1: クロスビュー強化学習によるVLM地理空間推論
- Authors: Chenhui Xu, Fuxun Yu, Michael J. Bianco, Jacob Kovarskiy, Raphael Tang, Qi Zhang, Zirui Xu, Will LeVine, Brandon Dubbs, Heming Liao, Cassandra Burgess, Suvam Bag, Jay Patravali, Rupanjali Kukal, Mikael Figueroa, Rishi Madhok, Nikolaos Karianakis, Jinjun Xiong,
- Abstract要約: 視覚言語モデルにおける地理空間的推論を解き放つ推論中心のポストトレーニングフレームワークであるGeo-R1を紹介する。
足場形成の段階では、Geo-R1は、シンセサイザーチェーン・オブ・シンセサイザー(synthetic chain-of-thinkt exemplars)の教師付き微調整を通じて、地理空間的思考パラダイムを注入する。
昇降段階では、弱い教師付きクロスビューペアリングプロキシ上でGRPOベースの強化学習を使用する。
- 参考スコア(独自算出の注目度): 26.869573782008217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Geo-R1, a reasoning-centric post-training framework that unlocks geospatial reasoning in vision-language models by combining thinking scaffolding and elevating. In the scaffolding stage, Geo-R1 instills a ``geospatial thinking paradigm" via supervised fine-tuning on synthetic chain-of-thought exemplars, enabling models to connect visual cues with geographic priors without costly human reasoning annotations. In the elevating stage, it uses GRPO-based reinforcement learning on a weakly-supervised cross-view pairing proxy. This design supplies a verifiable and scalable reward signal: teaching models to capture and reconcile features across modalities, and harnessing reasoning for accurate prediction. Geo-R1 extends geospatial modeling from domain pretraining / supervised finetuning to reasoning-first post-training, and achieves state-of-the-art performance across various geospatial reasoning benchmarks. Our model is available at https://huggingface.co/miniHui/Geo-R1.
- Abstract(参考訳): 思考の足場と高揚を組み合わせ,視覚モデルにおける地理空間的推論を解き放つ推論中心のポストトレーニングフレームワークであるGeo-R1を紹介する。
足場化の段階では、Geo-R1は合成チェーン・オブ・シンセサイザーの微調整を通じて「地理空間的思考パラダイム」を注入する。
昇降段階では、弱い教師付きクロスビューペアリングプロキシ上でGRPOベースの強化学習を使用する。
この設計は、検証可能でスケーラブルな報酬信号を提供する: モデルに、モダリティをまたいだ特徴を捉え、調整し、正確な予測のために推論を利用するように教える。
Geo-R1は、ドメイン事前訓練/教師付き微調整から推論第一訓練まで地理空間モデリングを拡張し、様々な地理空間推論ベンチマークで最先端のパフォーマンスを実現する。
私たちのモデルはhttps://huggingface.co/miniHui/Geo-R1.comで利用可能です。
関連論文リスト
- OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。
従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文 参考訳(メタデータ) (2026-02-13T04:48:05Z) - Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach [41.001581773172695]
提案するGeo-Rは,既存の接地トラス座標から構造的推論経路を明らかにする,検索不要なフレームワークである。
本稿では,ルールに基づく階層的推論パラダイムである領域の連鎖を提案する。
提案手法は,空間的直接監視による地理的推論を構造化し,位置推定精度の向上,一般化の強化,透過的な推論を行う。
論文 参考訳(メタデータ) (2026-01-01T16:51:41Z) - On the Impact of Graph Neural Networks in Recommender Systems: A Topological Perspective [49.391877616394765]
レコメンデーションシステムでは、ユーザと項目の相互作用を二部グラフとしてモデル化することができる。
このグラフに基づくビューは、グラフニューラルネットワーク(GNN)の急速な採用を動機付けている。
実証的な成功にもかかわらず、GNNが他のアプローチに対して体系的な優位性を提供する理由は、まだ部分的にしか理解されていない。
論文 参考訳(メタデータ) (2025-12-08T10:19:43Z) - GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes [84.52881742231152]
マルチモーダル大規模言語モデル (MLLM) は地理空間的シーン理解の進展において急速な発展を遂げている。
近年、リモートセンシングMLLMの推論能力の向上が試みられ、典型的には、精巧にキュレートされたチェーン・オブ・シント(CoT)データによるコールドスタートトレーニングによって実現されている。
MLLMが事前に定義されたCoTの監督なしに地理空間推論を行うことを可能にするフレームワークであるGeoZeroを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:28:09Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models [8.021952962029165]
リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T11:34:42Z) - Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning [37.90271368636318]
リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
論文 参考訳(メタデータ) (2025-09-26T07:01:12Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - RAG for Geoscience: What We Expect, Gaps and Opportunities [15.069356714106808]
Retrieval-Augmented Generation (RAG)は、検索と生成を組み合わせることで言語モデルを強化する。
次世代のパラダイムであるGeo-RAGは、RAGをモジュラー検索の$rightarrow$ reason $rightarrow$ generate $rightarrow$ verify loopとして再定義する。
Geo-RAGは、(i)マルチモーダル地球データの検索、(ii)物理および領域制約下での推論、(iii)科学グレードのアーティファクトの生成、(iv)数値モデル、地上測定、エキスパートアセスメントに対する生成仮説の検証の4つのコア機能をサポートしている。
論文 参考訳(メタデータ) (2025-08-15T06:33:27Z) - GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。
物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文 参考訳(メタデータ) (2025-08-06T04:45:34Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Assessment of a new GeoAI foundation model for flood inundation mapping [4.312965283062856]
そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。
実験では、ベンチマークデータセットであるSen1Floods11を使用し、モデルの予測可能性、一般化可能性、転送可能性を評価する。
以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。
論文 参考訳(メタデータ) (2023-09-25T19:50:47Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。