論文の概要: DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage
- arxiv url: http://arxiv.org/abs/2603.01106v1
- Date: Sun, 01 Mar 2026 13:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.515908
- Title: DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage
- Title(参考訳): DIVA-GRPO:難易度適応型可変アドバンテージによるマルチモーダル推論の強化
- Authors: Haowen Gao, Zhenyu Zhang, Liang Pang, Fangda Guo, Hongjian Dou, Guannan Lv, Shaoguo Liu, Tingting Gao, Huawei Shen, Xueqi Cheng,
- Abstract要約: グループ相対的政策最適化(GRPO)による強化学習は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための広く採用されているアプローチとなっている。
GRPOは、批判なしに長鎖推論を可能にするが、難しい問題に対する微妙な報酬と、グループレベルの報酬が過度に簡単あるいは難しい問題に対して一貫性が過ぎる場合の利点に悩まされることが多い。
グローバルな視点から可変困難分布を調整する難易度適応型変分法であるDIVA-GRPOを提案する。
- 参考スコア(独自算出の注目度): 83.64031699341862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) with group relative policy optimization (GRPO) has become a widely adopted approach for enhancing the reasoning capabilities of multimodal large language models (MLLMs). While GRPO enables long-chain reasoning without a critic, it often suffers from sparse rewards on difficult problems and advantage vanishing when group-level rewards are too consistent for overly easy or hard problems. Existing solutions (sample expansion, selective utilization, and indirect reward design) often fail to maintain enough variance in within-group reward distributions to yield clear optimization signals. To address this, we propose DIVA-GRPO, a difficulty-adaptive variant advantage method that adjusts variant difficulty distributions from a global perspective. DIVA-GRPO dynamically assesses problem difficulty, samples variants with appropriate difficulty levels, and calculates advantages across local and global groups using difficulty-weighted and normalized scaling. This alleviates reward sparsity and advantage vanishing while improving training stability. Extensive experiments on six reasoning benchmarks demonstrate that DIVA-GRPO outperforms existing approaches in training efficiency and reasoning performance. Code: https://github.com/Siaaaaaa1/DIVA-GRPO
- Abstract(参考訳): グループ相対政策最適化(GRPO)を用いた強化学習(RL)は,マルチモーダル大規模言語モデル(MLLM)の推論能力を高めるために広く採用されている。
GRPOは批判なしに長鎖推論を可能にするが、難しい問題に対する微妙な報酬と、グループレベルの報酬が過度に簡単あるいは難しい問題に対して一貫性が過ぎる場合の利点に悩まされることが多い。
既存の解(サンプル展開、選択的利用、間接報酬設計)は、明確な最適化信号を得るのに十分な群内報酬分布の分散を維持することができないことが多い。
この問題に対処するために,グローバルな視点から可変困難分布を調整する困難適応型変分法であるDIVA-GRPOを提案する。
DIVA-GRPOは、問題の難易度、適切な難易度を持つ変種を動的に評価し、難易度および正規化スケーリングを用いて局所的および大域的グループにまたがる利点を計算する。
これにより、トレーニングの安定性を改善しながら、報酬の分散とメリットの消滅が軽減される。
6つの推論ベンチマークに関する大規模な実験は、DIVA-GRPOがトレーニング効率と推論性能の既存のアプローチより優れていることを示している。
コード:https://github.com/Siaaaaa1/DIVA-GRPO
関連論文リスト
- Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization [38.26061472669552]
難解群正規化(Durian)を提案する。
提案手法はグループ内での区別を保ちながら極端なケースに対する感受性を排除し,複数のマルチモーダル推論ベンチマークにおいて有意な性能向上をもたらす。
論文 参考訳(メタデータ) (2026-02-25T09:52:50Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - Transform-Augmented GRPO Improves Pass@k [50.3707071191733]
グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
論文 参考訳(メタデータ) (2026-01-30T02:43:29Z) - DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations [22.299736215070343]
MLLM(Multimodal Large Language Models)は、容易に区別できる好みのペアを過度に強調する傾向がある。
本稿では,学習過程のバランスをとるための費用対効果の高いフレームワークであるDA-DPOを提案する。
論文 参考訳(メタデータ) (2026-01-02T09:41:54Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity [7.818698554631196]
グループ相対政策最適化 (GRPO) アルゴリズムはスパース報酬規則に依存しており、有利な崩壊問題を引き起こす。
我々は,textbfEntropy-textbfDriven Advantage と textbfGuided textbfError Correction を採用したEDGE-GRPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:23:58Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - GVPO: Group Variance Policy Optimization for Large Language Model Post-Training [19.005045649097987]
群変数ポリシー最適化(GVPO)は、KL制約された報酬を直接重みに含める分析解である。
GVPOには2つの大きな利点がある: ユニークな最適解、正確にはKL制約の報酬目的、および柔軟なサンプリング分布をサポートする。
GVPOは、理論的な保証を実用的適応性で統一することにより、信頼性と汎用性を備えたLLMポストトレーニングのための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-28T09:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。