論文の概要: Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.22221v1
- Date: Fri, 26 Sep 2025 11:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.39307
- Title: Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models
- Title(参考訳): リモートセンシングにおける忠実な推論に向けて:視覚・言語モデルのための知覚的空間的連鎖
- Authors: Jiaqi Liu, Lang Sun, Ronghao Fu, Bo Yang,
- Abstract要約: リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
- 参考スコア(独自算出の注目度): 8.021952962029165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) in remote sensing often fail at complex analytical tasks, a limitation stemming from their end-to-end training paradigm that bypasses crucial reasoning steps and leads to unverifiable outputs. To address this limitation, we introduce the Perceptually-Grounded Geospatial Chain-of-Thought (Geo-CoT), a framework that models remote sensing analysis as a verifiable, multi-step process. We instill this analytical process through a two-stage alignment strategy, leveraging Geo-CoT380k, the first large-scale dataset of structured Geo-CoT rationales. This strategy first employs supervised fine-tuning (SFT) to instill the foundational cognitive architecture, then leverages Group Reward Policy Optimization (GRPO) to refine the model's reasoning policy towards factual correctness. The resulting model, RSThinker, outputs both a final answer and its justifying, verifiable analytical trace. This capability yields dominant performance, significantly outperforming state-of-the-art models across a comprehensive range of tasks. The public release of our Geo-CoT380k dataset and RSThinker model upon publication serves as a concrete pathway from opaque perception towards structured, verifiable reasoning for Earth Observation.
- Abstract(参考訳): リモートセンシングにおける視覚言語モデル(VLM)は、しばしば複雑な分析タスクで失敗する。
この制限に対処するために、リモートセンシング分析を検証可能な多段階プロセスとしてモデル化するフレームワークであるPerceptually-Grounded Geospatial Chain-of-Thought (Geo-CoT)を導入する。
構造化されたGeo-CoT合理性の最初の大規模データセットであるGeo-CoT380kを利用して、2段階のアライメント戦略によってこの分析プロセスを注入する。
この戦略はまず、基本的な認知アーキテクチャを取り入れるために教師付き微調整(SFT)を使用し、次に、グループリワードポリシー最適化(GRPO)を活用して、事実の正しさに対するモデルの推論ポリシーを洗練させる。
結果のモデルであるRSThinkerは、最終的な答えと正当で検証可能な分析トレースの両方を出力する。
この能力は圧倒的なパフォーマンスをもたらし、包括的なタスクの範囲で最先端のモデルよりも大幅に優れています。
公開されたGeo-CoT380kデータセットとRSThinkerモデルは、不透明な知覚から地球観測への具体的な経路として機能する。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。
従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文 参考訳(メタデータ) (2026-02-13T04:48:05Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - GeoReason: Aligning Thinking And Answering In Remote Sensing Vision-Language Models Via Logical Consistency Reinforcement Learning [12.987952829880363]
GeoReasonは、内部思考と最終的な決定を同期させるように設計されたフレームワークである。
まず、4000の推論軌道を含む論理駆動型データセットGeoReason-Benchを構築した。
次に,(1)推論の構文とドメインの専門知識をモデルに組み込むための知識初期化の促進,(2)推論の信頼性を向上するための一貫性を考慮した強化学習,という2段階の学習戦略を定式化する。
論文 参考訳(メタデータ) (2026-01-07T17:26:41Z) - GeoDiT: A Diffusion-based Vision-Language Model for Geospatial Understanding [14.436063587920005]
地理空間領域に適した初めての拡散型視覚言語モデルであるGeoDiTを紹介する。
画像キャプション、視覚的接地、多物体検出において大きな進歩を遂げる。
本研究は, 複雑な地理空間解析において, 生成過程とデータ固有の構造との整合性が, 優れた性能の鍵となることを検証する。
論文 参考訳(メタデータ) (2025-12-02T07:59:46Z) - Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning [26.869573782008217]
視覚言語モデルにおける地理空間的推論を解き放つ推論中心のポストトレーニングフレームワークであるGeo-R1を紹介する。
足場形成の段階では、Geo-R1は、シンセサイザーチェーン・オブ・シンセサイザー(synthetic chain-of-thinkt exemplars)の教師付き微調整を通じて、地理空間的思考パラダイムを注入する。
昇降段階では、弱い教師付きクロスビューペアリングプロキシ上でGRPOベースの強化学習を使用する。
論文 参考訳(メタデータ) (2025-09-29T21:34:55Z) - Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning [37.90271368636318]
リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
論文 参考訳(メタデータ) (2025-09-26T07:01:12Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [27.848962405476108]
新しいパイプラインは、さまざまなソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
そこで我々はGLOBE, グループ関連ポリシー最適化, 可視性評価, ビジュアル・キュー推論の最適化について紹介する。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Expert Insight-Based Modeling of Non-Kinetic Strategic Deterrence of Rare Earth Supply Disruption:A Simulation-Driven Systematic Framework [3.5516803380598074]
本研究では,レアアース供給破壊シナリオにおける非運動論的戦略抑止経路をシミュレートするための定量的モデリングフレームワークを構築した。
データは、ISR、電子戦、レアアースコントロールにおける米国と中国のダイナミクスを中心とした専門家のインタビューとシナリオ分析に由来する。
その結果, 組織的な信号は強いテンポと経路結合効果を有し, 戦略的能力の急速な劣化を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-13T10:18:59Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。