論文の概要: Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.22221v1
- Date: Fri, 26 Sep 2025 11:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.39307
- Title: Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models
- Title(参考訳): リモートセンシングにおける忠実な推論に向けて:視覚・言語モデルのための知覚的空間的連鎖
- Authors: Jiaqi Liu, Lang Sun, Ronghao Fu, Bo Yang,
- Abstract要約: リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
- 参考スコア(独自算出の注目度): 8.021952962029165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) in remote sensing often fail at complex analytical tasks, a limitation stemming from their end-to-end training paradigm that bypasses crucial reasoning steps and leads to unverifiable outputs. To address this limitation, we introduce the Perceptually-Grounded Geospatial Chain-of-Thought (Geo-CoT), a framework that models remote sensing analysis as a verifiable, multi-step process. We instill this analytical process through a two-stage alignment strategy, leveraging Geo-CoT380k, the first large-scale dataset of structured Geo-CoT rationales. This strategy first employs supervised fine-tuning (SFT) to instill the foundational cognitive architecture, then leverages Group Reward Policy Optimization (GRPO) to refine the model's reasoning policy towards factual correctness. The resulting model, RSThinker, outputs both a final answer and its justifying, verifiable analytical trace. This capability yields dominant performance, significantly outperforming state-of-the-art models across a comprehensive range of tasks. The public release of our Geo-CoT380k dataset and RSThinker model upon publication serves as a concrete pathway from opaque perception towards structured, verifiable reasoning for Earth Observation.
- Abstract(参考訳): リモートセンシングにおける視覚言語モデル(VLM)は、しばしば複雑な分析タスクで失敗する。
この制限に対処するために、リモートセンシング分析を検証可能な多段階プロセスとしてモデル化するフレームワークであるPerceptually-Grounded Geospatial Chain-of-Thought (Geo-CoT)を導入する。
構造化されたGeo-CoT合理性の最初の大規模データセットであるGeo-CoT380kを利用して、2段階のアライメント戦略によってこの分析プロセスを注入する。
この戦略はまず、基本的な認知アーキテクチャを取り入れるために教師付き微調整(SFT)を使用し、次に、グループリワードポリシー最適化(GRPO)を活用して、事実の正しさに対するモデルの推論ポリシーを洗練させる。
結果のモデルであるRSThinkerは、最終的な答えと正当で検証可能な分析トレースの両方を出力する。
この能力は圧倒的なパフォーマンスをもたらし、包括的なタスクの範囲で最先端のモデルよりも大幅に優れています。
公開されたGeo-CoT380kデータセットとRSThinkerモデルは、不透明な知覚から地球観測への具体的な経路として機能する。
関連論文リスト
- Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning [37.90271368636318]
リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
論文 参考訳(メタデータ) (2025-09-26T07:01:12Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [27.848962405476108]
新しいパイプラインは、さまざまなソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
そこで我々はGLOBE, グループ関連ポリシー最適化, 可視性評価, ビジュアル・キュー推論の最適化について紹介する。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Expert Insight-Based Modeling of Non-Kinetic Strategic Deterrence of Rare Earth Supply Disruption:A Simulation-Driven Systematic Framework [3.5516803380598074]
本研究では,レアアース供給破壊シナリオにおける非運動論的戦略抑止経路をシミュレートするための定量的モデリングフレームワークを構築した。
データは、ISR、電子戦、レアアースコントロールにおける米国と中国のダイナミクスを中心とした専門家のインタビューとシナリオ分析に由来する。
その結果, 組織的な信号は強いテンポと経路結合効果を有し, 戦略的能力の急速な劣化を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-13T10:18:59Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。