論文の概要: RS-HyRe-R1: A Hybrid Reward Mechanism to Overcome Perceptual Inertia for Remote Sensing Images Understanding
- arxiv url: http://arxiv.org/abs/2604.17504v1
- Date: Sun, 19 Apr 2026 15:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.560423
- Title: RS-HyRe-R1: A Hybrid Reward Mechanism to Overcome Perceptual Inertia for Remote Sensing Images Understanding
- Title(参考訳): RS-HyRe-R1:リモートセンシング画像理解のための知覚慣性を克服するためのハイブリッドリワード機構
- Authors: Gaozhi Zhou, Hu He, Peng Shen, Jipeng Zhang, Liujue Zhang, Linrui Xu, Zeyuan Wang, Ziyu Li, Xuezhi Cui, Wang Guo, Haifeng Li,
- Abstract要約: リモートセンシング理解のためのハイブリッド報酬フレームワークRS-HyRe-R1を提案する。
RS-HyRe-R1は「知覚慣性」を効果的に緩和し、より深く、より多様な推論を促進する。
- 参考スコア(独自算出の注目度): 22.712555479018203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) post-training substantially improves remote sensing vision-language models (RS-VLMs). However, when handling complex remote sensing imagery (RSI) requiring exhaustive visual scanning, models tend to rely on localized salient cues for rapid inference. We term this RL-induced bias "perceptual inertia". Driven by reward maximization, models favor quick outcome fitting, leading to two limitations: cognitively, overreliance on specific features impedes complete evidence construction; operationally, models struggle to flexibly shift visual focus across tasks. To address this bias and encourage comprehensive visual evidence mining, we propose RS-HyRe-R1, a hybrid reward framework for RSI understanding. It introduces: (1) a spatial reasoning activation reward that enforces structured visual reasoning; (2) a perception correctness reward that provides adaptive quality anchors across RS tasks, ensuring accurate geometric and semantic alignment; and (3) a visual-semantic path evolution reward that penalizes repetitive reasoning and promotes exploration of complementary cues to build richer evidence chains. Experiments show RS-HyRe-R1 effectively mitigates "perceptual inertia", encouraging deeper, more diverse reasoning. With only 3B parameters, it achieves state-of-the-art performance on REC, OVD, and VQA tasks, outperforming models up to 7B parameters. It also demonstrates strong zero-shot generalization, surpassing the second-best model by 3.16%, 3.97%, and 2.72% on VQA, OVD, and REC, respectively. Code and datasets are available at https://github.com/geox-lab/RS-HyRe-R1.
- Abstract(参考訳): 強化学習(RL)は、リモートセンシング視覚言語モデル(RS-VLM)を大幅に改善する。
しかし、複雑なリモートセンシング画像(RSI)を扱う場合、モデルは高速な推論のために局所的なサルエント・キューに依存する傾向にある。
われわれはこのRL誘発バイアスを知覚慣性(perceptual inertia)と呼ぶ。
モデルは報酬の最大化によって駆動され、迅速な結果の適合を好んでおり、認知的に、特定の特徴への過度な依存は完全な証拠構築を妨げる。
このバイアスに対処し、包括的視覚的エビデンスマイニングを促進するために、RS-HyRe-R1を提案する。
1)構造化された視覚的推論を強制する空間的推論活性化報酬、(2)RSタスク全体にわたる適応的品質アンカーを提供する知覚的正当性報酬、(3)反復的推論を罰し、よりリッチなエビデンスチェーンを構築するための補完的手がかりの探索を促進する視覚的意味的経路進化報酬を導入する。
RS-HyRe-R1は「知覚慣性」を効果的に緩和し、より深く、より多様な推論を促進する。
3Bパラメータだけで、REC、OVD、VQAタスクの最先端のパフォーマンスを達成し、最大7Bパラメータのモデルよりもパフォーマンスがよい。
また、強いゼロショットの一般化を示し、VQA、OVD、RECでそれぞれ3.16%、3.97%、および2.72%の第二ベストモデルを上回っている。
コードとデータセットはhttps://github.com/geox-lab/RS-HyRe-R1.orgで公開されている。
関連論文リスト
- Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding [78.26501371437013]
超高解像度(UHR)リモートセンシング(RS)のためのマルチモーダル推論は通常、視覚的エビデンス取得によってボトルネックとなる。
標準的な強化学習は、ドメインの事前構造がなくても、これらの広大な視覚空間をナビゲートするのに苦労している。
本研究では,(1)スケーラブルで知識グラフで検証された地球科学のテキストQAで冷間開始して推論構造を挿入し,(2)SFT中に同じ硬いUHR画像テキストの例で事前ウォーミングを行い,その後のツールベースのRLを安定化・増幅する,段階的な知識注入レシピを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:40:33Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Asking like Socrates: Socrates helps VLMs understand remote sensing images [21.00494676428488]
言語による反復的な視覚的エビデンス探索パラダイムであるRS-EoT(Remote Sensing Evidence-of-Thought)を提案する。
SocraticAgentは、推論と視覚検査の交互サイクルを通じて推論トレースを合成する、セルフプレイのマルチエージェントシステムである。
実験により、RS-EoTは複数のRS VQAとグラウンドベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-11-27T12:19:37Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Transparent and Robust RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability [15.949084214401692]
Adaptive-Rewarded Evidence Navigation Agent (ARENA)は、RLを介してトレーニングされた透明で堅牢なRAGジェネレータフレームワークである。
構造化されたプロトコル、KL分散安定化および適応報酬計算モジュールに基づいて、ARENAはRAGジェネレータが鍵証拠を識別し、構造化推論を行い、解釈可能な決定トレースで回答を生成する。
論文 参考訳(メタデータ) (2025-05-19T15:40:29Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。