論文の概要: VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2504.05118v2
- Date: Tue, 08 Apr 2025 03:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 10:05:06.834296
- Title: VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks
- Title(参考訳): VAPO:高度推論タスクのための効率的で信頼性の高い強化学習
- Authors: Yu Yue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Xiangyu Yu, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan,
- Abstract要約: 本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
- 参考スコア(独自算出の注目度): 49.0793012627959
- License:
- Abstract: We present VAPO, Value-based Augmented Proximal Policy Optimization framework for reasoning models., a novel framework tailored for reasoning models within the value-based paradigm. Benchmarked the AIME 2024 dataset, VAPO, built on the Qwen 32B pre-trained model, attains a state-of-the-art score of $\mathbf{60.4}$. In direct comparison under identical experimental settings, VAPO outperforms the previously reported results of DeepSeek-R1-Zero-Qwen-32B and DAPO by more than 10 points. The training process of VAPO stands out for its stability and efficiency. It reaches state-of-the-art performance within a mere 5,000 steps. Moreover, across multiple independent runs, no training crashes occur, underscoring its reliability. This research delves into long chain-of-thought (long-CoT) reasoning using a value-based reinforcement learning framework. We pinpoint three key challenges that plague value-based methods: value model bias, the presence of heterogeneous sequence lengths, and the sparsity of reward signals. Through systematic design, VAPO offers an integrated solution that effectively alleviates these challenges, enabling enhanced performance in long-CoT reasoning tasks.
- Abstract(参考訳): 推論モデルのためのVAPO(Value-based Augmented Proximal Policy Optimization)フレームワークを提案する。
バリューベースのパラダイム内での推論モデルに適した,新たなフレームワークだ。
AIME 2024データセットであるVAPOは、Qwen 32B事前訓練モデルに基づいて構築され、最先端のスコアが$\mathbf{60.4}$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
VAPOのトレーニングプロセスは安定性と効率性で際立っている。
5000歩以内に最先端のパフォーマンスに達する。
さらに、複数の独立した実行において、トレーニングクラッシュは発生せず、信頼性が損なわれている。
この研究は、価値に基づく強化学習フレームワークを使用して、ロングチェーン・オブ・ソート(ロングCoT)推論に発展する。
価値モデルバイアス,不均一なシーケンス長の存在,報酬信号の空間性といった,価値に基づく手法を悩ませる重要な課題を3つ挙げる。
体系的な設計を通じて、VAPOはこれらの課題を効果的に軽減し、長期CoT推論タスクのパフォーマンスを向上する統合ソリューションを提供する。
関連論文リスト
- Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - FORLAPS: An Innovative Data-Driven Reinforcement Learning Approach for Prescriptive Process Monitoring [3.4437362489150254]
本研究は,9つの公開データセットを用いた先行研究に対して,その性能をベンチマークする,革新的な評価モデルを提案する。
提案モデルであるFOLAPSは、プロセストレース内で最も最適なポリシーを提案し、最もよい次のアクティビティを予測するために、既存の最先端アプローチよりも優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-01-17T20:31:35Z) - Batch-in-Batch: a new adversarial training framework for initial perturbation and sample selection [9.241737058291823]
適応学習法は, 単純な一様分布から, 対向サンプルに対する独立な初期摂動を生成する。
モデルを強化するため,Batch-in-Batchと呼ばれるシンプルで効果的なトレーニングフレームワークを提案する。
BBフレームワーク内でトレーニングされたモデルは、様々な対角的設定において、常に高い対角的精度を有することを示す。
論文 参考訳(メタデータ) (2024-06-06T13:34:43Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models
Using Pairwise-Distance Estimators [21.098866735156207]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。
サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。
我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文 参考訳(メタデータ) (2023-08-25T17:13:42Z) - Revisiting DETR Pre-training for Object Detection [24.372444866927538]
完全データ条件下での堅牢なDETRモデルの性能向上におけるDETRegの欠点について検討する。
我々は、改良されたボックス予測器とObjects$365$ベンチマークを組み合わせることで、目立った拡張をもたらす、Simple Self-trainingという最適化されたアプローチを採用しています。
これらの努力の結果、COCO valセットのAPスコアは59.3%で、事前トレーニングなしで$mathcalH$-Deformable-DETR + Swin-Lを1.4%で上回った。
論文 参考訳(メタデータ) (2023-08-02T17:39:30Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。