Fugu-MT 論文翻訳(概要): Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

論文の概要: Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

arxiv url: http://arxiv.org/abs/2602.20722v1
Date: Tue, 24 Feb 2026 09:35:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.697606
Title: Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning
Title（参考訳）: Bufferの課題: 大規模言語モデル推論におけるオフポリティ強化学習のパワーの解放
Authors: Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun,
Abstract要約: Batch Adaptation Policy Optimization (BAPO)は、大規模言語モデルのトレーニング後のデータ効率を改善するための、オフポリティックなRLVRフレームワークである。歴史的に困難なサンプルを再評価し、高品質なサンプルを再利用することで、トレーニングバッチを動的に選択する。 BAPOは数学、計画、視覚的推論のタスクでGRPOよりも平均12.5%改善している。
参考スコア（独自算出の注目度）: 12.863583402455008
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional on-policy Reinforcement Learning with Verifiable Rewards (RLVR) frameworks suffer from experience waste and reward homogeneity, which directly hinders learning efficiency on difficult samples during large language models post-training. In this paper, we introduce Batch Adaptation Policy Optimization (BAPO), an off-policy RLVR framework to improve the data efficiency in large language models post-training. It dynamically selects training batches by re-evaluating historically difficult samples and reusing high-quality ones, while holding a lower bound guarantee for policy improvement. Extensive experiments further demonstrate that BAPO achieves an average 12.5% improvement over GRPO across mathematics, planning, and visual reasoning tasks. Crucially, BAPO successfully resolves 40.7% of problems that base models consistently fail to solve.
Abstract（参考訳）: 従来のRLVR(Reinforcement Learning with Verifiable Rewards)フレームワークは、経験上の無駄と報酬の均質性に悩まされており、大規模な言語モデルのトレーニング後において、難しいサンプルに対する学習の効率を直接妨げている。本稿では,大規模言語モデルの学習後のデータ効率を改善するために,非政治的なRLVRフレームワークであるバッチ適応ポリシー最適化(BAPO)を紹介する。歴史的に困難なサンプルを再評価し、高品質なサンプルを再利用することで、動的にトレーニングバッチを選択します。広範な実験により、BAPOは数学、計画、視覚的推論のタスクでGRPOよりも平均12.5%改善していることが示された。 BAPOは、ベースモデルが常に解決できない問題の40.7%をうまく解決する。

関連論文リスト

Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training [63.34044358216334]
ACTOR-CURATORは、大規模言語モデルの強化学習のためのスケーラブルで完全に自動化されたカリキュラム学習フレームワークである。経験的に、ACTOR-CURATORは一貫して一様サンプリングと強力なカリキュラムベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-24T04:19:48Z)
RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization [40.41228010377401]
本稿では、政治外の知識と政治上のRLの安定性を両立させるためのリフレージング・ポリシー・オプティマイズ(RePO)を提案する。 RePOは、独自のスタイリスティックでパラメトリックな分布に適合する軌跡に、政治外の知識を言い換える。いくつかのベンチマークの実験では、RePOがハードサンプルの利用を改善し、既存のベースラインを上回っていることが示されている。
論文参考訳（メタデータ） (2026-02-11T13:02:40Z)
Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文参考訳（メタデータ） (2025-10-22T17:41:30Z)
DARO: Difficulty-Aware Reweighting Policy Optimization [18.07946696398167]
RLVR(Reinforcement Learning with Verifiable Rewards)の事実上のアプローチとしてグループ相対政策最適化(GRPO)が登場した。サンプルの難易度に結びついた静的あるいは過度に単純化された重み付けスキームへの依存が、モデルの進化する機能への適応を妨げていることを示す統一ビューを提供する。本稿では,bfbfDifficulty-Aware Reweighting Policy Optimization (DARO)を紹介する。
論文参考訳（メタデータ） (2025-10-10T04:57:15Z)
ExGRPO: Learning to Reason from Experience [82.83309610498446]
検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
論文参考訳（メタデータ） (2025-10-02T17:31:30Z)
GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。 GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文参考訳（メタデータ） (2025-07-14T08:10:00Z)
Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文参考訳（メタデータ） (2025-07-08T23:22:34Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。