論文の概要: Accelerating Model-Based Reinforcement Learning using Non-Linear Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2506.02767v1
- Date: Tue, 03 Jun 2025 11:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.414833
- Title: Accelerating Model-Based Reinforcement Learning using Non-Linear Trajectory Optimization
- Title(参考訳): 非線形軌道最適化を用いたモデルベース強化学習の高速化
- Authors: Marco Calì, Giulio Giacomuzzo, Ruggero Carli, Alberto Dalla Libera,
- Abstract要約: 本稿ではモンテカルロ確率的学習制御(MC-PILCO)の政策最適化の緩やかな収束について述べる。
非線形システムに適した高速軌道最適化法である反復線形擬似レギュレータ (iLQR) と統合する。
EB-MC-PILCOが標準のMC-PILCOに比べて収束を加速することを示す。
- 参考スコア(独自算出の注目度): 2.1386708011362257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the slow policy optimization convergence of Monte Carlo Probabilistic Inference for Learning Control (MC-PILCO), a state-of-the-art model-based reinforcement learning (MBRL) algorithm, by integrating it with iterative Linear Quadratic Regulator (iLQR), a fast trajectory optimization method suitable for nonlinear systems. The proposed method, Exploration-Boosted MC-PILCO (EB-MC-PILCO), leverages iLQR to generate informative, exploratory trajectories and initialize the policy, significantly reducing the number of required optimization steps. Experiments on the cart-pole task demonstrate that EB-MC-PILCO accelerates convergence compared to standard MC-PILCO, achieving up to $\bm{45.9\%}$ reduction in execution time when both methods solve the task in four trials. EB-MC-PILCO also maintains a $\bm{100\%}$ success rate across trials while solving the task faster, even in cases where MC-PILCO converges in fewer iterations.
- Abstract(参考訳): 本稿では,モンテカルロ確率的学習制御(MC-PILCO)を,非線形システムに適した高速軌道最適化手法である反復線形擬似レギュレータ(iLQR)と組み合わせて,最先端のモデルベース強化学習(MBRL)アルゴリズムである。
提案手法であるExploration-Boosted MC-PILCO (EB-MC-PILCO) はiLQRを利用して情報的かつ探索的な軌道を生成し、ポリシーを初期化する。
カートポールタスクの実験では、EB-MC-PILCOは標準のMC-PILCOと比較して収束を加速し、両方の手法が4つの試行でそのタスクを解く場合の実行時間を最大$$\bm{45.9\%} に短縮することを示した。
EB-MC-PILCOはまた、MC-PILCOがより少ないイテレーションで収束した場合であっても、試行錯誤で成功率$$\bm{100\%}を維持しながら、タスクを高速に解決する。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Fast training and sampling of Restricted Boltzmann Machines [4.785158987724452]
我々は、RBMトレーニングの最近の理論的進歩に基づいて、トレーニングの計算コストを大幅に削減する。
コンベックス最適化プロセスにより,主成分を低ランクのRBMに符号化する事前学習フェーズを提案する。
パラメータアニール軌道の連続的かつ滑らかな性質を利用して、信頼性と計算効率のよい対数類似度推定を行う。
論文 参考訳(メタデータ) (2024-05-24T09:23:43Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Learning Control from Raw Position Measurements [13.79048931313603]
VF-MC-PILCOというモデルベース強化学習(MBRL)アルゴリズムを提案する。
速度を直接測定できない機械システムに適用するために特別に設計されている。
論文 参考訳(メタデータ) (2023-01-30T18:50:37Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。