論文の概要: Monte Carlo Beam Search for Actor-Critic Reinforcement Learning in Continuous Control
- arxiv url: http://arxiv.org/abs/2505.09029v1
- Date: Tue, 13 May 2025 23:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.328634
- Title: Monte Carlo Beam Search for Actor-Critic Reinforcement Learning in Continuous Control
- Title(参考訳): 連続制御におけるアクタ・クリティカル強化学習のためのモンテカルロビーム探索
- Authors: Hazim Alzorgan, Abolfazl Razi,
- Abstract要約: 我々は,ビームサーチとモンテカルロロールアウトをTD3と組み合わせた新しいハイブリッド手法であるモンテカルロビームサーチ(MCBS)を導入し,探索と行動選択を改善した。
MCBSはポリシーのアウトプットに関するいくつかの候補アクションを生成し、それらを短期的なロールアウトを通じて評価することで、エージェントがより良いインフォームドの選択をすることができる。
本手法はTD3, SAC, PPO, A2Cに比べて, 異なる環境にまたがる収束率が高いことを示す。
- 参考スコア(独自算出の注目度): 0.3222802562733786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actor-critic methods, like Twin Delayed Deep Deterministic Policy Gradient (TD3), depend on basic noise-based exploration, which can result in less than optimal policy convergence. In this study, we introduce Monte Carlo Beam Search (MCBS), a new hybrid method that combines beam search and Monte Carlo rollouts with TD3 to improve exploration and action selection. MCBS produces several candidate actions around the policy's output and assesses them through short-horizon rollouts, enabling the agent to make better-informed choices. We test MCBS across various continuous-control benchmarks, including HalfCheetah-v4, Walker2d-v5, and Swimmer-v5, showing enhanced sample efficiency and performance compared to standard TD3 and other baseline methods like SAC, PPO, and A2C. Our findings emphasize MCBS's capability to enhance policy learning through structured look-ahead search while ensuring computational efficiency. Additionally, we offer a detailed analysis of crucial hyperparameters, such as beam width and rollout depth, and explore adaptive strategies to optimize MCBS for complex control tasks. Our method shows a higher convergence rate across different environments compared to TD3, SAC, PPO, and A2C. For instance, we achieved 90% of the maximum achievable reward within around 200 thousand timesteps compared to 400 thousand timesteps for the second-best method.
- Abstract(参考訳): Twin Delayed Deep Deterministic Policy Gradient (TD3) のようなアクタークリティカルな手法は、基本的なノイズベースの探索に依存しており、最適のポリシー収束よりも少ない結果をもたらす。
本研究では,ビームサーチとモンテカルロロールアウトをTD3と組み合わせた新しいハイブリッド手法であるモンテカルロビームサーチ(MCBS)を導入し,探索と行動選択を改善した。
MCBSはポリシーのアウトプットに関するいくつかの候補行動を生成し、短時間のロールアウトを通じて評価し、エージェントがより良いインフォームド選択を行えるようにする。
私たちは、HalfCheetah-v4、Walker2d-v5、Swimmer-v5を含む様々な連続制御ベンチマークでMCCをテストし、標準のTD3やSAC、PPO、A2Cといったベースラインメソッドと比較して、サンプル効率と性能が向上した。
本研究は、構造化されたルックアヘッドサーチによるポリシー学習を効率化し、計算効率を確保できるMCCの能力を強調した。
さらに,ビーム幅やロールアウト深さなどの重要なハイパーパラメータを詳細に解析し,複雑な制御タスクにMCCを最適化するための適応戦略を検討する。
本手法はTD3, SAC, PPO, A2Cに比べて, 異なる環境にまたがる収束率が高いことを示す。
例えば、2番目のベストメソッドでは4万のタイムステップに対して、達成可能な最大報酬の90%を約2万のタイムステップで達成しました。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes [3.9311044240639568]
政策勾配 (PG) は、勾配上昇を用いたパラメータ化政策モデルを最適化する強化学習 (RL) アプローチである。
PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。
本稿では、まず、オンラインRLのためのMCTSの適応であるモンテカルロ木学習(MCTL)を紹介し、その強みを活用するためにPGとMCTLの政策アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-02T12:21:40Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy [11.34520632697191]
強化学習(RL)における最適なポリシーの近似は、多くの現実のシナリオでしばしば必要です。
本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。
提案手法は,従来のポリシー最適化手法よりもデータ効率が良く,実装が容易であることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。