論文の概要: Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2601.19280v1
- Date: Tue, 27 Jan 2026 07:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.219415
- Title: Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning
- Title(参考訳): LLM推論のための群分散ロバスト最適化駆動強化学習
- Authors: Kishan Panaganti, Zhenwen Liang, Wenhao Yu, Haitao Mi, Dong Yu,
- Abstract要約: Multi-Ad Distributionally Robust Optimization (GDRO)は、一様推論を超えて最適化第一のフレームワークである。
本稿では,EMA-debiased multiplicative-weight bandit samplerを用いて,周波数バイアスを伴わない集中的難易マージンと過度にハードなグループをターゲットとした2つの独立したGDROゲームと,グループ間のロールアウトをシャドウプライスコントローラで再配置し,固定平均予算下でのハードタスクの勾配分散低減を最大化するRollout-GDROを提案する。
Qを用いたDAPO 14.1kデータセット上でのフレームワークの検証
- 参考スコア(独自算出の注目度): 45.86058898829962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Large Language Model (LLM) reasoning is increasingly driven by the refinement of post-training loss functions and alignment strategies. However, standard Reinforcement Learning (RL) paradigms like Group Relative Policy Optimization (GRPO) remain constrained by static uniformity: uniform prompt sampling and a fixed number of rollouts per prompt. For heterogeneous, heavy-tailed reasoning data, this creates structural inefficiencies that waste compute on already-solved patterns while under-training the long tail of hard problems. To address this, we propose Multi-Adversary Group Distributionally Robust Optimization (GDRO), an optimization-first framework that moves beyond uniform reasoning models by dynamically adapting the training distribution. We introduce an Online Difficulty Classifier that partitions prompts into dynamic pass@k difficulty groups. We then propose two independent GDRO games for post-training: (1) Prompt-GDRO, which employs an EMA-debiased multiplicative-weights bandit sampler to target the intensive difficulty margin and upweight persistently hard groups without frequency bias; and (2) Rollout-GDRO, which uses a shadow-price controller to reallocate rollouts across groups, maximizing gradient variance reduction on hard tasks under a fixed mean budget (compute-neutral). We provide no-regret guarantees for both controllers and additionally a variance-proxy analysis motivating a square-root optimal rollout allocation for Rollout-GDRO. We validate our framework on the DAPO 14.1k dataset using Qwen3-Base models. Prompt-GDRO and Rollout-GDRO achieve average relative gains of +10.6% and +10.1%, respectively, in pass@8 accuracy across 1.7B, 4B, and 8B scales compared to the GRPO baseline. Qualitative analysis shows an emergent curriculum: the adversaries shift resources to the evolving reasoning frontier, enhancing the reasoning model's performance.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の最近の進歩は、学習後損失関数の洗練とアライメント戦略によってますます加速している。
しかし、グループ相対政策最適化(GRPO)のような標準強化学習(RL)パラダイムは、一様プロンプトサンプリングと1プロンプト当たりのロールアウト数(英語版)の固定化によって制約されている。
ヘテロジニアスで重み付き推論データの場合、これは難題の長い尾を訓練しながら既に解決済みのパターンで計算する構造的非効率性を生み出す。
そこで我々は,学習分布を動的に適応させることにより,一様推論モデルを超えた最適化優先のフレームワークであるGDRO(Multi-Adversary Group Distributionally Robust Optimization)を提案する。
分割を動的パス@k困難グループに分割するオンライン困難分類器を導入する。
次に,2つの独立したGDROゲームを提案し,(1)EMAバイアス付きマルチプライバティブ・ウエイト・バンディット・サンプリングを用いて,周波数バイアスのない集中的難易マージンとアップウェイトなハードグループをターゲットにしたPrompt-GDRO,(2)シャドウプライス・コントローラを用いてグループ間のロールアウトを再現し,固定平均予算下でのハードタスクの勾配分散低減を最大化するRollout-GDROを提案する。
本稿では,両コントローラの非Regret保証と,Rollout-GDROの2乗ルート最適ロールアウト割り当てを動機とする分散プロキシ解析を提案する。
Qwen3-Baseモデルを用いて,DAPO 14.1kデータセット上でフレームワークを検証する。
Prompt-GDROとRollout-GDROは、GRPOベースラインと比較して平均相対利得が+10.6%、+10.1%、pass@8精度が1.7B、4B、8Bスケールである。
敵は資源を進化する推論フロンティアにシフトし、推論モデルのパフォーマンスを向上する。
関連論文リスト
- DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Adaptive Sample-Level Framework Motivated by Distributionally Robust Optimization with Variance-Based Radius Assignment for Enhanced Neural Network Generalization Under Distribution Shift [0.8101875496469488]
経験的リスク最小化(ERM)を用いて訓練された深層ニューラルネットワークの信頼性を損なう場合が多い。
本稿では、リスクの高いトレーニングサンプルを自動的に識別し、オンラインの損失分散に基づいて個人化されたロバスト性予算を割り当てる分散駆動型サンプルレベルDROフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T10:20:21Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。