論文の概要: R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
- arxiv url: http://arxiv.org/abs/2505.16673v1
- Date: Thu, 22 May 2025 13:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.331419
- Title: R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
- Title(参考訳): R1-ShareVL:Share-GRPOによるマルチモーダル大言語モデルの推論能力のインセンティブ化
- Authors: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang,
- Abstract要約: 我々は、強化学習(RL)を通してMLLMの推論能力を高めることを目的としている。
本稿では,これらの問題に対処する新しいRL手法であるShare-GRPOを提案する。
さらに、Share-GRPOは、利点計算中の報酬情報も共有している。
- 参考スコア(独自算出の注目度): 91.25793883692036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we aim to incentivize the reasoning ability of Multimodal Large Language Models (MLLMs) via reinforcement learning (RL) and develop an effective approach that mitigates the sparse reward and advantage vanishing issues during RL. To this end, we propose Share-GRPO, a novel RL approach that tackle these issues by exploring and sharing diverse reasoning trajectories over expanded question space. Specifically, Share-GRPO first expands the question space for a given question via data transformation techniques, and then encourages MLLM to effectively explore diverse reasoning trajectories over the expanded question space and shares the discovered reasoning trajectories across the expanded questions during RL. In addition, Share-GRPO also shares reward information during advantage computation, which estimates solution advantages hierarchically across and within question variants, allowing more accurate estimation of relative advantages and improving the stability of policy training. Extensive evaluations over six widely-used reasoning benchmarks showcase the superior performance of our method. Code will be available at https://github.com/HJYao00/R1-ShareVL.
- Abstract(参考訳): 本研究では,マルチモーダル大規模言語モデル(MLLM)の推論能力の強化学習(RL)によるインセンティブ化と,RLにおけるスパース報酬を緩和し,不利な問題を解消する効果的なアプローチを開発することを目的とする。
そこで本研究では,これらの問題に対処する新しいRL手法であるShare-GRPOを提案する。
具体的には、Share-GRPOはまず、データ変換技術を介して与えられた質問に対する質問空間を拡張し、次にMLLMが拡張された質問空間上の多様な推論軌跡を効果的に探索し、RL中に拡張された質問全体で発見された推論軌跡を共有することを推奨する。
さらに、Share-GRPOは、利点計算中に報酬情報を共有しており、ソリューションの利点を階層的に、質問の亜種の間で見積もり、相対的な利点をより正確に見積り、政策訓練の安定性を向上させることができる。
広く利用されている6つの推論ベンチマークに対する大規模な評価は,本手法の優れた性能を示す。
コードはhttps://github.com/HJYao00/R1-ShareVLで入手できる。
関連論文リスト
- General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本稿では,Multimodal Large Language Models(MLLM)における強化学習(RL)に基づく推論の最近の進歩を体系的にレビューする。
本稿では,2つの主要なRLパラダイム,値モデルフリーおよび値モデルベース手法に注目し,推論軌道の最適化とマルチモーダル情報の整合化により,RLが推論能力を高める方法を分析する。
本稿では,ベンチマークデータセット,評価プロトコル,現在の制限について概観し,スパース報酬,非効率なクロスモーダル推論,実世界の展開制約といった課題に対処するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2025-04-30T03:14:28Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG [79.61269381878547]
マルチモーダル大言語モデル(MLLM)における高分解能画像認識の課題
本稿では,従来の専門的アプローチから脱却し,MLLMの長文能力を高めることにより,最も基本的な考え方を人事知覚に再考する。
本研究では,空間的コンテキストを保ちながら関連する画像作物を抽出・融合する学習自由フレームワークであるRetrieval-Augmented Perception (RAP)を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:40:21Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。