論文の概要: Geospatial Chain of Thought Reasoning for Enhanced Visual Question Answering on Satellite Imagery
- arxiv url: http://arxiv.org/abs/2511.11198v1
- Date: Fri, 14 Nov 2025 11:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.566136
- Title: Geospatial Chain of Thought Reasoning for Enhanced Visual Question Answering on Satellite Imagery
- Title(参考訳): 衛星画像を用いた視覚的質問応答のための思考推論の地理空間的連鎖
- Authors: Shambhavi Shanker, Manikandan Padmanaban, Jagabondhu Hazra,
- Abstract要約: 衛星画像における視覚質問応答(VQA)の進行には,空間的思考連鎖(CoT)推論が不可欠である。
本稿では,CoT推論をDPO(Direct Preference Optimization)と統合し,解釈性,堅牢性,精度を向上させるVQAフレームワークを提案する。
実験の結果、CoTの監督は直接ベースラインよりも34.9%精度が向上し、DPOは精度と推論品質が向上した。
- 参考スコア(独自算出の注目度): 1.9153836153207706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geospatial chain of thought (CoT) reasoning is essential for advancing Visual Question Answering (VQA) on satellite imagery, particularly in climate related applications such as disaster monitoring, infrastructure risk assessment, urban resilience planning, and policy support. Existing VQA models enable scalable interpretation of remote sensing data but often lack the structured reasoning required for complex geospatial queries. We propose a VQA framework that integrates CoT reasoning with Direct Preference Optimization (DPO) to improve interpretability, robustness, and accuracy. By generating intermediate rationales, the model better handles tasks involving detection, classification, spatial relations, and comparative analysis, which are critical for reliable decision support in high stakes climate domains. Experiments show that CoT supervision improves accuracy by 34.9\% over direct baselines, while DPO yields additional gains in accuracy and reasoning quality. The resulting system advances VQA for multispectral Earth observation by enabling richer geospatial reasoning and more effective climate use cases.
- Abstract(参考訳): 地理空間的思考連鎖(CoT)推論は、特に災害監視、インフラリスク評価、都市のレジリエンス計画、政策支援などの気候関連アプリケーションにおいて、衛星画像における視覚的質問応答(VQA)の進行に不可欠である。
既存のVQAモデルは、リモートセンシングデータのスケーラブルな解釈を可能にするが、複雑な地理空間クエリに必要な構造的推論を欠くことが多い。
本稿では,CoT推論をDPO(Direct Preference Optimization)と統合し,解釈性,堅牢性,精度を向上させるVQAフレームワークを提案する。
中間的合理性を生成することにより、高リスク気候領域における信頼性の高い意思決定支援に欠かせない検出、分類、空間関係、比較分析を含むタスクをよりうまく扱うことができる。
実験により、CoTの監督は直接ベースラインよりも34.9\%精度を向上し、DPOは精度と推論品質のさらなる向上をもたらすことが示された。
結果として得られたシステムは、よりリッチな地理空間的推論とより効果的な気候ユースケースを可能にすることで、多スペクトル地球観測のためのVQAを前進させる。
関連論文リスト
- Security-Aware Joint Sensing, Communication, and Computing Optimization in Low Altitude Wireless Networks [83.84711311344918]
I SCCは低高度無線ネットワーク(LAWN)の中核部の一つである。
本稿では,通信の秘密性を考慮したI SCCの連成性能最適化について検討する。
進化的最適化の目的に応じて進化的演算子を適応的に選択する深層Q-network(DQN)に基づく多目的進化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T11:06:41Z) - Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models [8.021952962029165]
リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T11:34:42Z) - GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。
物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文 参考訳(メタデータ) (2025-08-06T04:45:34Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - Leveraging Land Cover Priors for Isoprene Emission Super-Resolution [15.868193361155656]
本研究は,BVOCエミッションマップの精錬に費用効率の高いデータ駆動型アプローチを提供することにより,大気化学と気候モデリングに寄与する。
提案手法は,衛星による排出データの利用性を高め,大気質予測,気候影響評価,環境研究への応用を支援する。
論文 参考訳(メタデータ) (2025-03-24T13:23:46Z) - Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions [5.053463027769152]
空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。
構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。
応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
論文 参考訳(メタデータ) (2025-02-04T01:30:06Z) - Long-term drought prediction using deep neural networks based on geospatial weather data [75.38539438000072]
農業計画や保険には1年前から予測される高品質の干ばつが不可欠だ。
私たちは、体系的なエンドツーエンドアプローチを採用するエンドツーエンドアプローチを導入することで、干ばつデータに取り組みます。
主な発見は、TransformerモデルであるEarthFormerが、正確な短期(最大6ヶ月)の予測を行う際の例外的なパフォーマンスである。
論文 参考訳(メタデータ) (2023-09-12T13:28:06Z) - Deep generative model super-resolves spatially correlated multiregional
climate data [5.678539713361703]
逆ネットワークに基づく機械学習により、ダウンスケーリングにおける地域間空間相関を正確に再構築できることを示す。
提案手法は,気候変動の影響を地域間一貫した評価に有効である。
本稿では,低分解能降雨場を圧力場に置き換えた深部生成モデルに基づくダウンスケーリング手法の結果について述べる。
論文 参考訳(メタデータ) (2022-09-26T05:45:16Z) - Federated Learning in the Sky: Aerial-Ground Air Quality Sensing
Framework with UAV Swarms [53.38353133198842]
空気質は人間の健康に大きく影響し、空気質指数(AQI)の正確かつタイムリーな予測がますます重要になっている。
本稿では, 精密な3次元空気質モニタリングと予測を行うための, 新たなフェデレーション学習型地上空気質検知フレームワークを提案する。
地中センシングシステムでは, グラフ畳み込みニューラルネットワークを用いたLong Short-Term Memory (GC-LSTM) モデルを提案し, 高精度, リアルタイム, 将来的なAQI推論を実現する。
論文 参考訳(メタデータ) (2020-07-23T13:32:47Z) - Bottom-up mechanism and improved contract net protocol for the dynamic
task planning of heterogeneous Earth observation resources [61.75759893720484]
地球観測資源は、災害救助、被害評価、関連する領域においてますます不可欠になりつつある。
観測要求の変更や悪天候の発生、資源の失敗など、予測できない多くの要因は、スケジュールされた観測計画が実行不可能になる可能性がある。
不均質な地球観測資源の動的タスク計画を容易にするため、ボトムアップ分散協調フレームワークと改良された契約網を提案する。
論文 参考訳(メタデータ) (2020-07-13T03:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。