論文の概要: RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.02240v1
- Date: Thu, 02 Oct 2025 17:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.251082
- Title: RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
- Title(参考訳): RewardMap: マルチステージ強化学習によるきめ細かいビジュアル推論におけるスパースリワード処理
- Authors: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の中核的な課題は、きめ細かい視覚的推論である。
ReasonMapはこのギャップを強調し、高度なMLLMでさえ、トランジットマップのような構造化された情報豊富な設定における空間的推論に苦労していることを示している。
MLLMの視覚的理解能力と推論能力の両方を改善するために設計された多段階RLフレームワークであるRewardMapを提案する。
- 参考スコア(独自算出の注目度): 39.571825294441446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual reasoning remains a core challenge for multimodal large language models (MLLMs). The recently introduced ReasonMap highlights this gap by showing that even advanced MLLMs struggle with spatial reasoning in structured and information-rich settings such as transit maps, a task of clear practical and scientific importance. However, standard reinforcement learning (RL) on such tasks is impeded by sparse rewards and unstable optimization. To address this, we first construct ReasonMap-Plus, an extended dataset that introduces dense reward signals through Visual Question Answering (VQA) tasks, enabling effective cold-start training of fine-grained visual understanding skills. Next, we propose RewardMap, a multi-stage RL framework designed to improve both visual understanding and reasoning capabilities of MLLMs. RewardMap incorporates two key designs. First, we introduce a difficulty-aware reward design that incorporates detail rewards, directly tackling the sparse rewards while providing richer supervision. Second, we propose a multi-stage RL scheme that bootstraps training from simple perception to complex reasoning tasks, offering a more effective cold-start strategy than conventional Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus demonstrate that each component of RewardMap contributes to consistent performance gains, while their combination yields the best results. Moreover, models trained with RewardMap achieve an average improvement of 3.47% across 6 benchmarks spanning spatial reasoning, fine-grained visual reasoning, and general tasks beyond transit maps, underscoring enhanced visual understanding and reasoning capabilities.
- Abstract(参考訳): 細粒度の視覚的推論は、マルチモーダル大言語モデル(MLLM)のコア課題である。
最近発表されたReasonMapは、高度なMLLMでさえ、トランジットマップのような構造化された情報に富んだ環境において空間的推論に苦しむことを示し、このギャップを強調している。
しかし、そのようなタスクにおける標準強化学習(RL)は、スパース報酬と不安定な最適化によって妨げられる。
そこで我々はまず,視覚質問応答(VQA)タスクを通じて高密度報酬信号を導入する拡張データセットReasonMap-Plusを構築する。
次に,MLLMの視覚的理解と推論能力の向上を目的とした多段階RLフレームワークであるRewardMapを提案する。
RewardMapには2つの重要な設計が含まれている。
まず、細かな報酬を取り入れ、より豊かな監督を提供しながら、まばらな報酬を直接処理する難易度の高い報酬設計を提案する。
第2に、単純な知覚から複雑な推論タスクへトレーニングをブートストラップする多段階RL方式を提案し、従来のスーパービジョンファインチューニング(SFT)よりも効果的なコールドスタート戦略を提供する。
ReasonMapとReasonMap-Plusの実験は、RewardMapの各コンポーネントが一貫したパフォーマンス向上に貢献し、それらの組み合わせが最高の結果をもたらすことを示した。
さらに、RewardMapでトレーニングされたモデルは、空間的推論、きめ細かい視覚的推論、トランジットマップを超えた一般的なタスクにまたがる6つのベンチマークで平均3.47%の改善を達成した。
関連論文リスト
- Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [66.84770041828462]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs [25.03191529055168]
大規模言語モデル(LLM)は推論能力の進歩により複雑なタスクに優れる。
既存の手法は推論の有効性と計算効率のトレードオフを見落としている。
より少ないトークンで最適な推論を実現するために,学習から思考への学習を提案する。
論文 参考訳(メタデータ) (2025-05-15T15:40:25Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。