論文の概要: Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.22115v1
- Date: Fri, 26 Sep 2025 09:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.338215
- Title: Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization
- Title(参考訳): 効果的な政策最適化のための動的デュアルレベルダウンサンプリングフレームワーク
- Authors: Chao Wang, Tao Yang, Hongtao Tian, Yunsheng Shi, Qiyao Ma, Xiaotao Liu, Ting Yao, Wenbo Ding,
- Abstract要約: GRPOのような批判のないメソッドは、複数のロールアウトから利点を推定することでメモリ要求を減らすが、徐々に収束する傾向がある。
我々は、ポリシー最適化の効率を改善するために、グループ間で最も有益なサンプルとトークンを優先順位付けする textbfDynamic Dual-Level Down-Sampling (D$3$S) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.2119634259269
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Critic-free methods like GRPO reduce memory demands by estimating advantages from multiple rollouts but tend to converge slowly, as critical learning signals are diluted by an abundance of uninformative samples and tokens. To tackle this challenge, we propose the \textbf{Dynamic Dual-Level Down-Sampling (D$^3$S)} framework that prioritizes the most informative samples and tokens across groups to improve the efficient of policy optimization. D$^3$S operates along two levels: (1) the sample-level, which selects a subset of rollouts to maximize advantage variance ($\text{Var}(A)$). We theoretically proven that this selection is positively correlated with the upper bound of the policy gradient norms, yielding higher policy gradients. (2) the token-level, which prioritizes tokens with a high product of advantage magnitude and policy entropy ($|A_{i,t}|\times H_{i,t}$), focusing updates on tokens where the policy is both uncertain and impactful. Moreover, to prevent overfitting to high-signal data, D$^3$S employs a dynamic down-sampling schedule inspired by curriculum learning. This schedule starts with aggressive down-sampling to accelerate early learning and gradually relaxes to promote robust generalization. Extensive experiments on Qwen2.5 and Llama3.1 demonstrate that integrating D$^3$S into advanced RL algorithms achieves state-of-the-art performance and generalization while requiring \textit{fewer} samples and tokens across diverse reasoning benchmarks. Our code is added in the supplementary materials and will be made publicly available.
- Abstract(参考訳): GRPOのような批判のない手法は、複数のロールアウトから利点を推定することでメモリ要求を減らすが、重要な学習信号が不定形サンプルとトークンの豊富さによって希薄になるため、徐々に収束する傾向がある。
この課題に対処するために、ポリシー最適化の効率を改善するために、グループ間で最も情報に富んだサンプルとトークンを優先順位付けする \textbf{Dynamic Dual-Level Down-Sampling (D$^3$S) フレームワークを提案する。
D$3$Sは以下の2つのレベルに沿って動作する: (1) サンプルレベルは、利点の分散を最大化するためにロールアウトのサブセットを選択する(\text{Var}(A)$)。
我々は、この選択が政策勾配ノルムの上界と正に相関し、より高い政策勾配をもたらすことを理論的に証明した。
2) アドバンストグレードとポリシーエントロピー(|A_{i,t}|\times H_{i,t}$)の高い積でトークンを優先順位付けするトークンレベルは、ポリシーが不確実かつ影響のあるトークンに注目する。
さらに、高信号データへの過度な適合を防止するため、D$3$Sでは、カリキュラム学習にインスパイアされた動的ダウンサンプリングスケジュールを採用している。
このスケジュールは、早期学習を加速するためにアグレッシブなダウンサンプリングから始まり、徐々にリラックスして堅牢な一般化を促進する。
Qwen2.5 と Llama3.1 に関する大規模な実験では、D$3$S を高度なRLアルゴリズムに統合することで、さまざまな推論ベンチマークで \textit{fewer} サンプルとトークンを必要としながら、最先端のパフォーマンスと一般化を実現することを示した。
私たちのコードは補足資料に追加され、公開されます。
関連論文リスト
- Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。