論文の概要: GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision
- arxiv url: http://arxiv.org/abs/2603.09551v1
- Date: Tue, 10 Mar 2026 11:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.266343
- Title: GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision
- Title(参考訳): GeoSolver:微細プロセススーパービジョンを用いたリモートセンシングにおけるテスト時間推論のスケーリング
- Authors: Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang,
- Abstract要約: 我々は、リモートセンシング推論を検証可能なプロセス教師あり学習へ移行するフレームワークであるGeorを紹介する。
トークンレベルのプロセス報酬モデル(PRM)であるGeoPRMをトレーニングします。
これらの検証信号を効果的に活用するために,プロセス対応ツリーGRPOを提案する。
得られたモデルであるGeor-9Bは、様々なリモートセンシングベンチマークにまたがって最先端のパフォーマンスを統合する。
- 参考スコア(独自算出の注目度): 10.62942603434055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) have significantly advanced remote sensing interpretation, enabling them to perform complex, step-by-step reasoning remains highly challenging. Recent efforts to introduce Chain-of-Thought (CoT) reasoning to this domain have shown promise, yet ensuring the visual faithfulness of these intermediate steps remains a critical bottleneck. To address this, we introduce GeoSolver, a novel framework that transitions remote sensing reasoning toward verifiable, process-supervised reinforcement learning. We first construct Geo-PRM-2M, a large-scale, token-level process supervision dataset synthesized via entropy-guided Monte Carlo Tree Search (MCTS) and targeted visual hallucination injection. Building upon this dataset, we train GeoPRM, a token-level process reward model (PRM) that provides granular faithfulness feedback. To effectively leverage these verification signals, we propose Process-Aware Tree-GRPO, a reinforcement learning algorithm that integrates tree-structured exploration with a faithfulness-weighted reward mechanism to precisely assign credit to intermediate steps. Extensive experiments demonstrate that our resulting model, GeoSolver-9B, achieves state-of-the-art performance across diverse remote sensing benchmarks. Crucially, GeoPRM unlocks robust Test-Time Scaling (TTS). Serving as a universal geospatial verifier, it seamlessly scales the performance of GeoSolver-9B and directly enhances general-purpose VLMs, highlighting its remarkable cross-model generalization.
- Abstract(参考訳): Vision-Language Models (VLM) は、より高度なリモートセンシングの解釈を持ち、複雑な推論を行うことができるが、ステップバイステップの推論は非常に困難である。
この領域にChain-of-Thought(CoT)推論を導入する最近の取り組みは、約束されているが、これらの中間ステップの視覚的忠実性を保証することは、依然として重要なボトルネックである。
そこで本稿では,リモートセンシング推論を検証可能なプロセス教師付き強化学習へ移行させる新しいフレームワークであるGeoSolverを紹介する。
我々はまず,エントロピー誘導モンテカルロ木探索(MCTS)と視覚幻覚注入により合成した大規模トークンレベルのプロセス監視データセットGeo-PRM-2Mを構築した。
このデータセットに基づいて、詳細な忠実度フィードバックを提供するトークンレベルのプロセス報酬モデル(PRM)であるGeoPRMをトレーニングします。
これらの検証信号を効果的に活用するために、木構造探索と忠実度重み付け報酬機構を統合して、中間ステップにクレジットを正確に割り当てる強化学習アルゴリズムであるProcess-Aware Tree-GRPOを提案する。
広汎な実験により、我々の生成したGeoSolver-9Bは、様々なリモートセンシングベンチマークで最先端のパフォーマンスを実現している。
重要なこととして、GeoPRMは堅牢なテスト時間スケーリング(TTS)をアンロックする。
普遍的な地理空間検証器として機能し、GeoSolver-9Bの性能をシームレスに拡張し、汎用VLMを直接拡張し、その顕著なクロスモデル一般化を強調している。
関連論文リスト
- SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning [31.665287327579026]
SpotAgentは、地理的ローカライゼーションをエージェント推論プロセスにフォーマル化するフレームワークである。
外部ツール(例えば、Web検索、マップ)をReActダイアグラムを通じて活用することで、視覚的手がかりを積極的に探索し検証する。
最先端のパフォーマンスを実現し、効果的に幻覚を緩和し、正確で検証可能なジオローカライゼーションを提供する。
論文 参考訳(メタデータ) (2026-02-10T06:57:12Z) - GeoDiT: A Diffusion-based Vision-Language Model for Geospatial Understanding [14.436063587920005]
地理空間領域に適した初めての拡散型視覚言語モデルであるGeoDiTを紹介する。
画像キャプション、視覚的接地、多物体検出において大きな進歩を遂げる。
本研究は, 複雑な地理空間解析において, 生成過程とデータ固有の構造との整合性が, 優れた性能の鍵となることを検証する。
論文 参考訳(メタデータ) (2025-12-02T07:59:46Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models [8.021952962029165]
リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T11:34:42Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [20.603433987118837]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。