論文の概要: Prioritized Replay for RL Post-training
- arxiv url: http://arxiv.org/abs/2601.02648v1
- Date: Tue, 06 Jan 2026 01:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.768691
- Title: Prioritized Replay for RL Post-training
- Title(参考訳): RLポストトレーニングのための優先リプレイ
- Authors: Mehdi Fatemi,
- Abstract要約: 大規模言語モデルのRL後学習のための問題レベル優先順位付けフレームワークを提案する。
提案手法は,経験的成功統計から得られたモデル駆動優先スコアに基づいて問題を選択する。
- 参考スコア(独自算出の注目度): 8.233951721966523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a problem-level prioritization framework for RL post-training of large language models. Building on insights from prioritized replay in deep RL, as well as prior observations that rollouts with intermediate success rates tend to produce stronger learning signals under methods such as GRPO, our approach selects problems according to a simple, model-driven priority score derived from empirical success statistics. In contrast to conventional curriculum strategies that emphasize easier tasks early in training, the resulting schedule naturally focuses training on problems that are neither consistently solved nor consistently failed, while deprioritizing those that contribute little gradient information. The method yields a continuously adapting and automatic prioritization process that requires no predefined difficulty tiers, auxiliary predictors, or external labels. We further introduce lightweight mechanisms for practical deployment, including heap-based prioritized sampling and periodic retesting of solved and unsolved problems to mitigate starvation and forgetting. Overall, the approach offers a principled and scalable alternative to manually designed curricula while aligning data selection directly with the dynamics of GRPO-based post-training.
- Abstract(参考訳): 大規模言語モデルのRL後学習のための問題レベル優先順位付けフレームワークを提案する。
より深いRLにおける優先順位付けされたリプレイと、中間成功率によるロールアウトがGRPOなどの手法の下でより強力な学習信号を生成する傾向にあるという先行観測に基づいて、本手法は経験的成功統計から導かれる単純なモデル駆動優先スコアに基づいて問題を選択する。
訓練の早い段階で簡単な作業を重視する従来のカリキュラム戦略とは対照的に、結果として得られるスケジュールは、一貫した解決や一貫した失敗をしない問題に焦点を合わせながら、グラデーション情報にほとんど寄与しない問題を優先順位付けする。
この方法は、事前定義された難易度層、補助予測器、または外部ラベルを必要としない継続的適応および自動優先順位付けプロセスを生成する。
さらに、ヒープベースの優先順位付けサンプリングや、飢餓と忘れを緩和するために解決された未解決問題の定期的な再テストを含む、実践的な展開のための軽量なメカニズムを導入する。
全体として、このアプローチは、手動で設計したカリキュラムに対して原則的でスケーラブルな代替手段を提供すると同時に、データ選択とGRPOベースのポストトレーニングのダイナミクスを直接調整する。
関連論文リスト
- OASIS: Open-world Adaptive Self-supervised and Imbalanced-aware System [5.085064777896467]
不均衡なデータに対して事前学習を行っても,オープンワールドの問題に効果的に対処する手法を提案する。
我々のコントラストベースの事前学習アプローチは、特に表現不足クラスにおいて、分類性能を高める。
提案手法は,様々なオープンワールドシナリオにおいて,精度と効率の両面で最先端の適応手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-08-20T08:09:05Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [5.819784482811376]
Prior Guidance(PG)は、行動閉ざされた拡散モデルに先立って標準ガウスを置き換えた新しいサンプリングフレームワークである。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。