論文の概要: Double Horizon Model-Based Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.15439v1
- Date: Wed, 17 Dec 2025 13:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.008639
- Title: Double Horizon Model-Based Policy Optimization
- Title(参考訳): 二重水平モデルに基づく政策最適化
- Authors: Akihiro Kubo, Paavo Parmas, Shin Ishii,
- Abstract要約: Long "distribution rollout" (DR) は、配電シフトを緩和するためのオンライン状態サンプルを生成する。
短い"トレーニングロールアウト"(TR)は、安定した勾配更新を伴う正確な値勾配推定を提供する。
二重水平法は分布シフト,モデルバイアス,勾配不安定性を効果的にバランスさせることを実証する。
- 参考スコア(独自算出の注目度): 3.257742896258293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) reduces the cost of real-environment sampling by generating synthetic trajectories (called rollouts) from a learned dynamics model. However, choosing the length of the rollouts poses two dilemmas: (1) Longer rollouts better preserve on-policy training but amplify model bias, indicating the need for an intermediate horizon to mitigate distribution shift (i.e., the gap between on-policy and past off-policy samples). (2) Moreover, a longer model rollout may reduce value estimation bias but raise the variance of policy gradients due to backpropagation through multiple steps, implying another intermediate horizon for stable gradient estimates. However, these two optimal horizons may differ. To resolve this conflict, we propose Double Horizon Model-Based Policy Optimization (DHMBPO), which divides the rollout procedure into a long "distribution rollout" (DR) and a short "training rollout" (TR). The DR generates on-policy state samples for mitigating distribution shift. In contrast, the short TR leverages differentiable transitions to offer accurate value gradient estimation with stable gradient updates, thereby requiring fewer updates and reducing overall runtime. We demonstrate that the double-horizon approach effectively balances distribution shift, model bias, and gradient instability, and surpasses existing MBRL methods on continuous-control benchmarks in terms of both sample efficiency and runtime.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、学習力学モデルから合成軌道(ロールアウトと呼ばれる)を生成することにより、実環境サンプリングのコストを削減する。
しかし、ロールアウトの長さを選択すると、2つのジレンマが生じる: 1) より長いロールアウトは、オンライントレーニングをより保存するが、モデルバイアスを増幅し、分散シフトを緩和するための中間地平線の必要性(すなわち、オンラインと過去のオフ政治サンプルのギャップ)を示す。
さらに、より長いモデルロールアウトは、値推定バイアスを減少させるが、複数のステップによるバックプロパゲーションによる政策勾配のばらつきを増大させ、安定な勾配推定のための別の中間地平線を示唆する。
しかし、この2つの最適地平線は異なるかもしれない。
この対立を解決するために、DHMBPO(Double Horizon Model-Based Policy Optimization)を提案し、ロールアウト手順を長い「流通ロールアウト」(DR)と短い「トレーニングロールアウト」(TR)に分割する。
DRは、配電シフトを緩和するためのオンライン状態サンプルを生成する。
対照的に、短いTRは微分可能な遷移を利用して、安定した勾配更新を伴う正確な値勾配推定を提供し、更新を少なくし、全体の実行時間を短縮する。
本手法は, 分散シフト, モデルバイアス, 勾配不安定性を効果的にバランスさせ, サンプル効率と実行率の両面から, 連続制御ベンチマークにおける既存のMBRL法より優れていることを示す。
関連論文リスト
- Harnessing Bounded-Support Evolution Strategies for Policy Refinement [3.3656696418661975]
三角分布ES対は、安定で、並列化可能で、勾配のない更新を提供する中心ランク有限差分推定器を持つ三角形雑音に有界である。
2段階のパイプライン - PPO事前トレーニングとTD-ESの改良 – では、早期サンプル効率を維持しながら、堅牢な後期ステージゲインを実現している。
ロボット操作タスクのスイート全体で、TD-ESはPPOと比較して26.5%の成功率を高め、信頼性の高い改良のための単純で計算軽量なパスを提供する。
論文 参考訳(メタデータ) (2025-11-13T03:35:52Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Half-order Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [16.103949557802988]
確率拡散モデル(DM)は、連鎖構造を通して推論することで内容を生成する。
現代の手法は強化学習 (RL) と切り離されたバックプロパゲーション (BP) に基づいている
DMのためのRLR(Recursive Likelihood Ratio)ファインチューニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-02T03:00:26Z) - TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression [11.040033344386366]
対象タスクの学習性能を限定的なサンプルで向上させるため, 新規な融合正規化器を用いた2段階の手法を提案する。
対象モデルの推定誤差に対して、漸近的境界が提供される。
提案手法を分散設定に拡張し,事前学習ファインタニング戦略を実現する。
論文 参考訳(メタデータ) (2024-04-01T14:58:16Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。