論文の概要: DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management
- arxiv url: http://arxiv.org/abs/2505.12951v1
- Date: Mon, 19 May 2025 10:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.541046
- Title: DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management
- Title(参考訳): DGRO: 探索探索制御と逆分散管理によるLLM推論の強化
- Authors: Xuerui Su, Liya Guo, Yue Wang, Yi Zhu, Zhiming Ma, Zun Wang, Yuting Liu,
- Abstract要約: Decoupled Group Reward Optimization (DGRO) は、大規模言語モデル(LLM)推論のための一般的なRLアルゴリズムである。
我々はDGROが平均96.9%の精度でLogicデータセットの最先端性能を達成することを示し、数学的なベンチマークで強い一般化を示す。
- 参考スコア(独自算出の注目度): 18.953750405635393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference scaling further accelerates Large Language Models (LLMs) toward Artificial General Intelligence (AGI), with large-scale Reinforcement Learning (RL) to unleash long Chain-of-Thought reasoning. Most contemporary reasoning approaches usually rely on handcrafted rule-based reward functions. However, the tarde-offs of exploration and exploitation in RL algorithms involves multiple complex considerations, and the theoretical and empirical impacts of manually designed reward functions remain insufficiently explored. In this paper, we propose Decoupled Group Reward Optimization (DGRO), a general RL algorithm for LLM reasoning. On the one hand, DGRO decouples the traditional regularization coefficient into two independent hyperparameters: one scales the policy gradient term, and the other regulates the distance from the sampling policy. This decoupling not only enables precise control over balancing exploration and exploitation, but also can be seamlessly extended to Online Policy Mirror Descent (OPMD) algorithms in Kimi k1.5 and Direct Reward Optimization. On the other hand, we observe that reward variance significantly affects both convergence speed and final model performance. We conduct both theoretical analysis and extensive empirical validation to assess DGRO, including a detailed ablation study that investigates its performance and optimization dynamics. Experimental results show that DGRO achieves state-of-the-art performance on the Logic dataset with an average accuracy of 96.9\%, and demonstrates strong generalization across mathematical benchmarks.
- Abstract(参考訳): 推論スケーリングにより、大規模言語モデル(LLM)が人工知能(AGI)にさらに加速され、大規模強化学習(RL)が長鎖の推論を解き放つ。
現代の推論手法の多くは、通常手作りの規則に基づく報酬関数に依存している。
しかし、RLアルゴリズムにおける探索と搾取のタルデオフは、複数の複雑な考察を伴い、手動で設計された報酬関数の理論的および経験的な影響は、まだ不十分である。
本稿では,LLM推論のための一般RLアルゴリズムであるDecoupled Group Reward Optimization (DGRO)を提案する。
一方、DGROは従来の正規化係数を2つの独立したハイパーパラメータに分解する: 1つはポリシー勾配項をスケールし、もう1つはサンプリングポリシーからの距離を調節する。
この分離は、探索とエクスプロイトのバランスの正確な制御を可能にするだけでなく、Kimi k1.5 の Online Policy Mirror Descent (OPMD) アルゴリズムや Direct Reward Optimization にもシームレスに拡張することができる。
一方、報酬の分散は収束速度と最終モデルの性能の両方に大きく影響する。
我々はDGROを評価するための理論解析と広範な実証検証の両方を行い、その性能と最適化のダイナミクスを詳細に研究した。
実験の結果、DGROは平均96.9\%の精度でLogicデータセットの最先端性能を達成し、数学的なベンチマークで強い一般化を示すことがわかった。
関連論文リスト
- Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Towards General-Purpose Model-Free Reinforcement Learning [40.973429772093155]
強化学習(RL)は、ほぼ普遍的な問題解決のためのフレームワークを約束する。
実際には、RLアルゴリズムは特定のベンチマークに合わせて調整されることが多い。
そこで本研究では,ドメインと問題設定の多様なクラスに対処可能なモデルフリーの深部RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:36:37Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。