論文の概要: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
- arxiv url: http://arxiv.org/abs/2509.25026v1
- Date: Mon, 29 Sep 2025 16:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.135169
- Title: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
- Title(参考訳): GeoVLM-R1:Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
- Authors: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan,
- Abstract要約: 多様な地球観測タスクへの推論に基づくRLモデルの効果的な適応を可能にするために,タスク意識報酬を取り入れた新しいポストトレーニングフレームワークを提案する。
このトレーニング戦略は、リモートセンシング画像の推論機能を強化し、最適化を安定化し、堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 47.13305707860122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
- Abstract(参考訳): 近年の強化学習(RL)の進歩は、自然画像領域において強力な推論能力をもたらしたが、地球観測(EO)の可能性はほとんど解明されていない。
EOタスクは、参照対象の検出、画像または領域のキャプション、変更検出、グラウンド化、時間解析といったタスク認識推論を必要とする、ユニークな課題を導入します。
本稿では,多種多様なEOタスクへの推論に基づくRLモデルの効果的な適応を可能にするために,タスク認識報酬を取り入れた新しいポストトレーニングフレームワークを提案する。
このトレーニング戦略は、リモートセンシング画像の推論機能を強化し、最適化を安定化し、堅牢性を向上させる。
複数のEOベンチマークに対する大規模な実験は、最先端の汎用的および専門的な視覚言語モデルよりも一貫した性能向上を示す。
コードとモデルはhttps://mustansarfiaz.github.io/GeoVLM-R1/で公開される。
関連論文リスト
- ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation [4.506099292980221]
各種プロプライエタリおよびオープンソースLVLMのOoDD機能の評価と解析を行った。
本稿では,LVLMのOoDD機能向上を目的とした自己誘導型プロンプト手法であるReflexive Guidance(ReGuide)を提案する。
実験結果から,我々のReGuideは画像分類とOoDDタスクの両方において,現在のLVLMの性能を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-19T04:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。