論文の概要: ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.10019v1
- Date: Tue, 10 Feb 2026 17:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.718676
- Title: ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning
- Title(参考訳): ADORA:強化学習における動的アドバンテージ推定を用いた推論モデルの訓練
- Authors: Qingnan Ren, Shiting Huang, Zhen Fang, Zehui Chen, Lin Chen, Lijun Li, Feng Zhao,
- Abstract要約: textbfOnline textbfRollout textbfAdaptation, textbfADORA (textbfAdvantage textbfDynamics via textbfOnline textbfRollout textbfAdaptation)を導入する。
- 参考スコア(独自算出の注目度): 32.8666744273094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become a cornerstone technique for developing reasoning models in complex tasks, ranging from mathematical problem-solving to imaginary reasoning. The optimization of these models typically relies on policy gradient methods, whose efficacy hinges on the accurate estimation of an advantage function. However, prevailing methods typically employ static advantage estimation, a practice that leads to inefficient credit assignment by neglecting the dynamic utility of training samples over time. This limitation results in suboptimal policy updates, which in turn manifest as slower convergence rates and increased learning instability, as models fail to adapt to evolving sample utilities effectively. To address this problem, we introduce \textbf{ADORA} (\textbf{A}dvantage \textbf{D}ynamics via \textbf{O}nline \textbf{R}ollout \textbf{A}daptation), a novel framework for policy optimization. ADORA dynamically adjusts the advantage function's weighting by adaptively categorizing training data into temporarily advantageous and disadvantageous samples, based on their evolving utility during online model rollouts. This tailored data differentiation strategy allows ADORA to be seamlessly integrated into existing policy optimization algorithms without significant architectural modifications, enabling the policy to prioritize learning from more informative experiences and thereby achieve more efficient policy updates. Extensive evaluations across diverse model families and varying data scales demonstrate that ADORA is a robust and efficient framework. It significantly enhances long reasoning in both geometric and mathematical tasks, consistently achieving notable performance gains without requiring sensitive hyperparameter tuning.
- Abstract(参考訳): 強化学習は、数学的問題解決から想像的推論まで、複雑なタスクにおける推論モデルを開発するための基礎技術となっている。
これらのモデルの最適化は、典型的には政策勾配法に依存し、その有効性は有利関数の正確な推定に依存する。
しかし、一般的な手法では静的な優位性推定が一般的であり、これは時間の経過とともにトレーニングサンプルの動的有用性を無視して、非効率な信用割当をもたらすプラクティスである。
この制限は、モデルがサンプルユーティリティの進化に効果的に適応できないため、結果として収束速度が遅くなり、学習不安定が増加するという、最適以下のポリシー更新をもたらす。
この問題に対処するために、政策最適化のための新しいフレームワークである \textbf{A}dvantage \textbf{D}ynamics を \textbf{O}nline \textbf{R}ollout \textbf{A}daptation で導入する。
ADORAは、オンラインモデルロールアウト中に進化しているユーティリティに基づいて、トレーニングデータを一時的に有利で不利なサンプルに分類することで、利点関数の重み付けを動的に調整する。
このカスタマイズされたデータ差別化戦略により、ADORAは重要なアーキテクチャ変更なしに既存のポリシー最適化アルゴリズムにシームレスに統合され、より情報的な経験から学習を優先し、より効率的なポリシー更新を実現することができる。
さまざまなモデルファミリとさまざまなデータスケールにわたる広範な評価は、ADORAが堅牢で効率的なフレームワークであることを証明している。
これは幾何学的タスクと数学的タスクの両方において長い推論を著しく強化し、微妙なハイパーパラメータチューニングを必要とせず、常に顕著なパフォーマンス向上を達成する。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution [0.35932002706017546]
メタオーダーの最適実行における強化学習の利用について検討する。
目的は、実装不足と市場への影響を最小限に抑えながら、段階的に大規模な注文を実行することである。
我々はキュー・リフレクティブ・モデルを用いて現実的でトラクタブルなリミットオーダーブックシミュレーションを生成する。
論文 参考訳(メタデータ) (2025-11-19T09:26:23Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - KIPPO: Koopman-Inspired Proximal Policy Optimization [4.46358470535211]
強化学習(RL)は様々な分野で大きな進歩を遂げてきた。
PPO(Proximal Policy)のような政策勾配法は、性能、安定性、計算効率のバランスのために人気を博している。
論文 参考訳(メタデータ) (2025-05-20T16:25:41Z) - Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks [5.115170525117103]
リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。
本研究では,戦場状況変化に対するリアルタイム応答性評価機能の改善手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T14:36:33Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。