論文の概要: MEML-GRPO: Heterogeneous Multi-Expert Mutual Learning for RLVR Advancement
- arxiv url: http://arxiv.org/abs/2508.09670v1
- Date: Wed, 13 Aug 2025 09:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.849296
- Title: MEML-GRPO: Heterogeneous Multi-Expert Mutual Learning for RLVR Advancement
- Title(参考訳): MEML-GRPO:RLVR発展のための不均一なマルチエキスパート相互学習
- Authors: Weitao Jia, Jinghui Lu, Haiyang Yu, Siqi Wang, Guozhi Tang, An-Lan Wang, Weijie Yin, Dingkang Yang, Yuxiang Nie, Bin Shan, Hao Feng, Irene Li, Kun Yang, Han Wang, Jingqun Tang, Teng Fu, Changhong Jin, Chao Feng, Xiaohui Lv, Can Huang,
- Abstract要約: Multi-Expert Mutual Learning GRPOは、多様な専門家のプロンプトを利用する革新的なフレームワークである。
MEML-GRPOはQwenでは平均4.89%、Llamaでは11.33%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 37.880962254812175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances demonstrate that reinforcement learning with verifiable rewards (RLVR) significantly enhances the reasoning capabilities of large language models (LLMs). However, standard RLVR faces challenges with reward sparsity, where zero rewards from consistently incorrect candidate answers provide no learning signal, particularly in challenging tasks. To address this, we propose Multi-Expert Mutual Learning GRPO (MEML-GRPO), an innovative framework that utilizes diverse expert prompts as system prompts to generate a broader range of responses, substantially increasing the likelihood of identifying correct solutions. Additionally, we introduce an inter-expert mutual learning mechanism that facilitates knowledge sharing and transfer among experts, further boosting the model's performance through RLVR. Extensive experiments across multiple reasoning benchmarks show that MEML-GRPO delivers significant improvements, achieving an average performance gain of 4.89% with Qwen and 11.33% with Llama, effectively overcoming the core limitations of traditional RLVR methods.
- Abstract(参考訳): 近年の進歩は、検証可能な報酬(RLVR)による強化学習が、大規模言語モデル(LLM)の推論能力を大幅に向上させることを示している。
しかし、標準のRLVRは報酬の分散を伴う課題に直面しており、特に困難なタスクにおいて、不適切な候補回答からの報酬がゼロであることは学習信号を提供しない。
そこで本研究では,多種多様な専門家のプロンプトを利用した多種多種多種多型相互学習 GRPO (MEML-GRPO) を提案する。
さらに,専門家間の知識共有と伝達を促進するための,専門家間の相互学習機構を導入し,RLVRによるモデルの性能向上を図る。
複数の推論ベンチマークによる大規模な実験の結果、MEML-GRPOはQwenで4.89%、Llamaで11.33%の性能向上を達成し、従来のRLVRメソッドの限界を克服した。
関連論文リスト
- From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.51110344832178]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文 参考訳(メタデータ) (2025-08-11T01:26:16Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism [10.288667305064065]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
LLMは、静的な内部知識のために、幻覚または時代遅れの応答を生成する傾向にある。
Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2025-06-30T09:02:45Z) - Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models [22.10168313140081]
本稿では,AIフィードバックから報酬関数を学習する評価に基づく強化学習手法ERL-VLMを紹介する。
ERL-VLMは、個々の軌道の絶対評価のために大きな視覚言語モデルをクエリし、より表現力のあるフィードバックを可能にする。
ERL-VLM は既存の VLM ベースの報酬生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-06-15T12:05:08Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。