論文の概要: Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding
- arxiv url: http://arxiv.org/abs/2602.14225v1
- Date: Sun, 15 Feb 2026 16:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.749295
- Title: Text Before Vision: Staged Knowledge Injection Matters for Agentic RLVR in Ultra-High-Resolution Remote Sensing Understanding
- Title(参考訳): 超高分解能リモートセンシングにおけるエージェントRLVRの段階的知識注入
- Authors: Fengxiang Wang, Mingshuo Chen, Yueying Li, Yajie Yang, Yuhao Zhou, Di Wang, Yifan Zhang, Haoyu Wang, Haiyan Zhao, Hongda Sun, Long Lan, Jun Song, Yulin Wang, Jing Zhang, Wenlong Zhang, Bo Du,
- Abstract要約: 超高解像度(UHR)リモートセンシング(RS)のためのマルチモーダル推論は通常、視覚的エビデンス取得によってボトルネックとなる。
標準的な強化学習は、ドメインの事前構造がなくても、これらの広大な視覚空間をナビゲートするのに苦労している。
本研究では,(1)スケーラブルで知識グラフで検証された地球科学のテキストQAで冷間開始して推論構造を挿入し,(2)SFT中に同じ硬いUHR画像テキストの例で事前ウォーミングを行い,その後のツールベースのRLを安定化・増幅する,段階的な知識注入レシピを提案する。
- 参考スコア(独自算出の注目度): 78.26501371437013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning for ultra-high-resolution (UHR) remote sensing (RS) is usually bottlenecked by visual evidence acquisition: the model necessitates localizing tiny task-relevant regions in massive pixel spaces. While Agentic Reinforcement Learning with Verifiable Rewards (RLVR) using zoom-in tools offers a path forward, we find that standard reinforcement learning struggles to navigate these vast visual spaces without structured domain priors. In this paper, we investigate the interplay between post-training paradigms: comparing Cold-start Supervised Fine-Tuning (SFT), RLVR, and Agentic RLVR on the UHR RS benchmark.Our controlled studies yield a counter-intuitive finding: high-quality Earth-science text-only QA is a primary driver of UHR visual reasoning gains. Despite lacking images, domain-specific text injects the concepts, mechanistic explanations, and decision rules necessary to guide visual evidence retrieval.Based on this, we propose a staged knowledge injection recipe: (1) cold-starting with scalable, knowledge-graph-verified Earth-science text QA to instill reasoning structures;and (2) "pre-warming" on the same hard UHR image-text examples during SFT to stabilize and amplify subsequent tool-based RL. This approach achieves a 60.40% Pass@1 on XLRS-Bench, significantly outperforming larger general purpose models (e.g., GPT-5.2, Gemini 3.0 Pro, Intern-S1) and establishing a new state-of-the-art.
- Abstract(参考訳): 超高分解能リモートセンシング(UHR)のためのマルチモーダル推論は、通常、視覚的エビデンス獲得によってボトルネックとなる。
RLVR(Agenic Reinforcement Learning with Verifiable Rewards)はズームインツールを使用するが、標準的な強化学習は、ドメインの事前構造がなくても、これらの広大な視覚空間をナビゲートするのに苦労している。
本稿では, UHR RSベンチマークにおいて, コールドスタート・スーパーバイザード・ファイン・チューニング(SFT), RLVR, エージェントRLVRを比較した。
画像の欠如にもかかわらず、ドメイン固有のテキストは、視覚的エビデンス検索を誘導するために必要な概念、機械的説明、決定ルールを注入する。これに基づいて、(1)スケーラブルで知識グラフで検証された地球科学のテキストQAで冷間開始し、(2)SFT中の同じ硬質UHR画像テキストの例に「プレウォーミング」を行い、その後のツールベースのRLを安定化・増幅する、段階的な知識注入レシピを提案する。
このアプローチはXLRS-Bench上で60.40%のPass@1を達成し、より大きな汎用モデル(GPT-5.2、Gemini 3.0 Pro、Intern-S1)を著しく上回り、新しい最先端技術を確立する。
関連論文リスト
- GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery [69.05066425853326]
シンキング・ウィズ・イメージ」パラダイムは、マルチモーダルな大規模言語モデル(MLLM)がズームインツールを使って視覚的なシーンを積極的に探索することを可能にする。
これは超高分解能(UHR)リモートセンシングVQAにおいて必須であり、タスク関連キューは疎小である。
筆者らは,(1)冷間開始型SFTデータセット, UHR-CoZ(UHR-CoZ)を多種多様なズームレジームをカバーするトレーニングフレームワークであるGeoEyes,(2)エージェント強化学習手法であるAdaZoom-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:50:55Z) - Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage [4.771792258699647]
我々は,注目ヘッドの選択的に洗練されたサブセットを活用することにより,視覚的接地を改善する訓練不要な方法であるtextbfHead Visual Cropping (HAVC) を提案する。
複数の微細なVQAベンチマークの実験は、HAVCが最先端の収穫戦略を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-30T02:46:55Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning [93.19037653970622]
本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
論文 参考訳(メタデータ) (2025-10-31T16:30:08Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。