論文の概要: Asking like Socrates: Socrates helps VLMs understand remote sensing images
- arxiv url: http://arxiv.org/abs/2511.22396v1
- Date: Thu, 27 Nov 2025 12:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.55954
- Title: Asking like Socrates: Socrates helps VLMs understand remote sensing images
- Title(参考訳): ソクラテスのような質問:ソクラテスはVLMがリモートセンシング画像を理解するのに役立つ
- Authors: Run Shao, Ziyu Li, Zhaoyang Zhang, Linrui Xu, Xinran He, Hongyuan Yuan, Bolei He, Yongxing Dai, Yiming Yan, Yijun Chen, Wang Guo, Haifeng Li,
- Abstract要約: 言語による反復的な視覚的エビデンス探索パラダイムであるRS-EoT(Remote Sensing Evidence-of-Thought)を提案する。
SocraticAgentは、推論と視覚検査の交互サイクルを通じて推論トレースを合成する、セルフプレイのマルチエージェントシステムである。
実験により、RS-EoTは複数のRS VQAとグラウンドベンチマークで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 21.00494676428488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal reasoning models, inspired by DeepSeek-R1, have significantly advanced vision-language systems. However, in remote sensing (RS) tasks, we observe widespread pseudo reasoning: models narrate the process of reasoning rather than genuinely reason toward the correct answer based on visual evidence. We attribute this to the Glance Effect, where a single, coarse perception of large-scale RS imagery results in incomplete understanding and reasoning based on linguistic self-consistency instead of visual evidence. To address this, we propose RS-EoT (Remote Sensing Evidence-of-Thought), a language-driven, iterative visual evidence-seeking paradigm. To instill this paradigm, we propose SocraticAgent, a self-play multi-agent system that synthesizes reasoning traces via alternating cycles of reasoning and visual inspection. To enhance and generalize these patterns, we propose a two-stage progressive RL strategy: first, RL on fine-grained Grounding tasks to enhance RS-EoT capabilities, followed by RL on RS VQA to generalize to broader understanding scenarios. Experiments show RS-EoT achieves state-of-the-art performance on multiple RS VQA and grounding benchmarks. Analyses reveal clear iterative cycles of reasoning and evidence seeking, confirming RS-EoT mitigates the Glance Effect and enables genuine evidence-grounded reasoning. Our code, data, and models are available at https://geox-lab.github.io/Asking_like_Socrates
- Abstract(参考訳): 近年のマルチモーダル推論モデルはDeepSeek-R1にインスパイアされ、視覚言語システムが大幅に進歩している。
しかし、リモートセンシング(RS)タスクでは、視覚的エビデンスに基づいて正しい答えを真に導くのではなく、モデルが推論の過程をナレーションする、広範囲な疑似推論が観察される。
我々は,大規模RS画像の粗い認識が,視覚的証拠ではなく,言語的自己整合性に基づく不完全な理解と推論をもたらすという,Glance効果に起因している。
そこで我々は,言語による反復的視覚的エビデンス探索パラダイムであるRS-EoT(Remote Sensing Evidence-of-Thought)を提案する。
このパラダイムを具現化したSocraticAgentは、推論と視覚検査の交互サイクルを通して推論トレースを合成するセルフプレイマルチエージェントシステムである。
まず、RS-EoT機能を強化するためのきめ細かいグラウンディングタスク上のRLと、より広い理解シナリオに一般化するためのRS VQA上のRLを提案する。
実験により、RS-EoTは複数のRS VQAとグラウンドベンチマークで最先端のパフォーマンスを達成することが示された。
分析は推論と証拠探索の反復サイクルを明らかにし、RS-EoTがガンス効果を緩和し、真に証拠に基づく推論を可能にする。
私たちのコード、データ、モデルはhttps://geox-lab.github.io/Asking_like_Socratesで利用可能です。
関連論文リスト
- Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning [29.78411369746505]
PEARLは二重ブランチの知覚推論の相乗効果であり、視覚的証拠に明示的に固定することで多モーダル推論を強化する。
PEARLはマルチモーダル推論ベンチマークにおいて、ベースラインよりも+9.7%改善し、MathVerseではGRPOよりも+6.6%向上した。
論文 参考訳(メタデータ) (2025-11-23T13:15:58Z) - VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文 参考訳(メタデータ) (2025-10-10T13:34:23Z) - Decoupling Reasoning and Perception: An LLM-LMM Framework for Faithful Visual Reasoning [34.940968264459805]
大規模言語モデル(LLM)のための学習不要なビジュアル推論パイプラインを導入する。
強力なLLMは、LMMを戦略的に尋問して、論理的連鎖に必要な特定の視覚情報を抽出する高レベルの推論をオーケストレーションする。
この枠組みは視覚的推論過程を効果的に制御し, 視覚的根拠のない推論ステップの大幅な削減と, 忠実さの大幅な改善に繋がる。
論文 参考訳(メタデータ) (2025-09-27T14:13:41Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning [45.39372905700317]
視覚的に豊かな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを紹介する。
このフレームワークにより、VLMは検索エンジンと相互作用し、シングルターンまたはマルチターン推論軌道を自律的にサンプリングする。
我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
論文 参考訳(メタデータ) (2025-05-28T06:30:51Z) - LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。
本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。
既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2025-04-21T18:10:38Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。