論文の概要: GeoReason: Aligning Thinking And Answering In Remote Sensing Vision-Language Models Via Logical Consistency Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.04118v1
- Date: Wed, 07 Jan 2026 17:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.705522
- Title: GeoReason: Aligning Thinking And Answering In Remote Sensing Vision-Language Models Via Logical Consistency Reinforcement Learning
- Title(参考訳): GeoReason: 論理的一貫性強化学習によるリモートセンシングビジョンランゲージモデルにおける思考と回答の調整
- Authors: Wenshuai Li, Xiantai Xiang, Zixiao Wen, Guangyao Zhou, Ben Niu, Feng Wang, Lijia Huang, Qiantong Wang, Yuxin Hu,
- Abstract要約: GeoReasonは、内部思考と最終的な決定を同期させるように設計されたフレームワークである。
まず、4000の推論軌道を含む論理駆動型データセットGeoReason-Benchを構築した。
次に,(1)推論の構文とドメインの専門知識をモデルに組み込むための知識初期化の促進,(2)推論の信頼性を向上するための一貫性を考慮した強化学習,という2段階の学習戦略を定式化する。
- 参考スコア(独自算出の注目度): 12.987952829880363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Remote Sensing Vision-Language Models(RS-VLMs) emphasizes the importance of transitioning from perception-centric recognition toward high-level deductive reasoning to enhance cognitive reliability in complex spatial tasks. However, current models often suffer from logical hallucinations, where correct answers are derived from flawed reasoning chains or rely on positional shortcuts rather than spatial logic. This decoupling undermines reliability in strategic spatial decision-making. To address this, we present GeoReason, a framework designed to synchronize internal thinking with final decisions. We first construct GeoReason-Bench, a logic-driven dataset containing 4,000 reasoning trajectories synthesized from geometric primitives and expert knowledge. We then formulate a two-stage training strategy: (1) Supervised Knowledge Initialization to equip the model with reasoning syntax and domain expertise, and (2) Consistency-Aware Reinforcement Learning to refine deductive reliability. This second stage integrates a novel Logical Consistency Reward, which penalizes logical drift via an option permutation strategy to anchor decisions in verifiable reasoning traces. Experimental results demonstrate that our framework significantly enhances the cognitive reliability and interpretability of RS-VLMs, achieving state-of-the-art performance compared to other advanced methods.
- Abstract(参考訳): リモートセンシング・ビジョン・ランゲージ・モデル(RS-VLM)の進化は、複雑な空間的タスクにおける認知的信頼性を高めるために、知覚中心の認識から高レベルな推論への移行の重要性を強調している。
しかし、現在のモデルはしばしば論理幻覚に悩まされ、正しい答えは欠点のある推論連鎖から導かれるか、空間論理よりも位置的ショートカットに依存する。
この分離は、戦略的空間決定の信頼性を損なう。
この問題に対処するために,内部思考と最終決定を同期させるフレームワークであるGeoReasonを紹介した。
最初にGeoReason-Benchを構築した。これは幾何学的プリミティブと専門知識から合成された4000の推論軌道を含む論理駆動型データセットである。
次に,(1)推論の構文とドメインの専門知識をモデルに組み込むための知識初期化の促進,(2)推論の信頼性を向上するための一貫性を考慮した強化学習,という2段階の学習戦略を定式化する。
この第2段階は論理的整合性逆転(Logical Consistency Reward)という、オプションの置換戦略を通じて論理的ドリフトをペナルティ化し、検証可能な推論トレースにおける決定をアンカーする。
実験により,本フレームワークはRS-VLMの認知的信頼性と解釈可能性を大幅に向上させ,他の高度な手法と比較して最先端性能を実現していることが示された。
関連論文リスト
- Logical Phase Transitions: Understanding Collapse in LLM Logical Reasoning [17.5066777599458]
記号的論理的推論は、大言語モデル(LLM)の批判的だが未発見の機能である
論理的推論性能は政権内では安定だが, 批判的論理的深度を超えて急激に崩壊することを示す。
本稿では,自然言語と論理記号を適応的にアライメントし,共有表現を確立する原理的フレームワークであるNeuro-Symbolic Curriculum Tuningを提案する。
論文 参考訳(メタデータ) (2026-01-06T10:38:25Z) - STaR: Towards Cognitive Table Reasoning via Slow-Thinking Large Language Models [12.745473719032026]
本稿では、認知テーブル推論を実現するための新しいフレームワークSTaR(slow-thinking for table reasoning)を提案する。
STaRはステップバイステップ思考と不確実性認識推論を明示的にモデル化する。
ベンチマーク実験により、STaRは優れた性能を示し、推論安定性が向上した。
論文 参考訳(メタデータ) (2025-11-14T12:34:17Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。