論文の概要: Bootstrap Off-policy with World Model
- arxiv url: http://arxiv.org/abs/2511.00423v1
- Date: Sat, 01 Nov 2025 06:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.770396
- Title: Bootstrap Off-policy with World Model
- Title(参考訳): 世界モデルによるブートストラップオフ政治
- Authors: Guojian Zhan, Likun Wang, Xiangteng Zhang, Jiaxin Gao, Masayoshi Tomizuka, Shengbo Eben Li,
- Abstract要約: ブートストラップループを通じて計画と非政治学習を緊密に統合するフレームワークであるBOOMを提案する。
BOOMは、トレーニングの安定性と最終的なパフォーマンスの両方において、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 59.129118672069644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online planning has proven effective in reinforcement learning (RL) for improving sample efficiency and final performance. However, using planning for environment interaction inevitably introduces a divergence between the collected data and the policy's actual behaviors, degrading both model learning and policy improvement. To address this, we propose BOOM (Bootstrap Off-policy with WOrld Model), a framework that tightly integrates planning and off-policy learning through a bootstrap loop: the policy initializes the planner, and the planner refines actions to bootstrap the policy through behavior alignment. This loop is supported by a jointly learned world model, which enables the planner to simulate future trajectories and provides value targets to facilitate policy improvement. The core of BOOM is a likelihood-free alignment loss that bootstraps the policy using the planner's non-parametric action distribution, combined with a soft value-weighted mechanism that prioritizes high-return behaviors and mitigates variability in the planner's action quality within the replay buffer. Experiments on the high-dimensional DeepMind Control Suite and Humanoid-Bench show that BOOM achieves state-of-the-art results in both training stability and final performance. The code is accessible at https://github.com/molumitu/BOOM_MBRL.
- Abstract(参考訳): オンラインプランニングは、サンプル効率と最終性能を改善するために強化学習(RL)に有効であることが証明されている。
しかし,環境相互作用に計画を用いることは,収集したデータと政策の実際の行動の相違を必然的に引き起こし,モデル学習と政策改善の両方を劣化させる。
この問題を解決するために,ブートストラップループを通じて計画と非政治学習を緊密に統合するフレームワークであるBOOM(Bootstrap Off-policy with WOrld Model)を提案する。
このループは、計画立案者が将来の軌道をシミュレートし、政策改善を促進するための価値目標を提供する、共同学習の世界モデルによって支持される。
BOOMの中核は、プランナーの非パラメトリックなアクション分布を使用してポリシーをブートストラップする可能性のないアライメント損失であり、ハイリターン動作を優先し、リプレイバッファ内のプランナーのアクション品質の変動を緩和するソフトな値重み付け機構と組み合わせている。
高次元DeepMind Control SuiteとHumanoid-Benchの実験は、BOOMがトレーニング安定性と最終性能の両方で最先端の結果を達成することを示した。
コードはhttps://github.com/molumitu/BOOM_MBRLでアクセスできる。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - A KL-regularization framework for learning to plan with adaptive priors [1.0246259631050245]
政策最適化モデル予測制御(PO-MPC)を導入する。
PO-MPCは、政策最適化の先駆けとしてプランナーの行動分布を統合する。
実験により,これらの拡張構成により,大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-10-05T16:45:38Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Behavior Preference Regression for Offline Reinforcement Learning [0.0]
オフライン強化学習(RL)手法は、固定データセットの軌跡のみにアクセスして最適なポリシーを学習することを目的としている。
政策制約法は、報酬の最大化と政策からの逸脱の最小化とのバランスをとる最適化問題として政策学習を定式化する。
オフラインRLに対する振る舞い回帰予測とペア比較のアプローチを適応する。
我々は、広く使われているD4RL LocomotionとAntmazeのデータセットと、より難しいV-D4RLスイートでBPRを実証的に評価した。
論文 参考訳(メタデータ) (2025-03-02T15:13:02Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。