論文の概要: Trust-Region Twisted Policy Improvement
- arxiv url: http://arxiv.org/abs/2504.06048v1
- Date: Tue, 08 Apr 2025 13:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:05.209193
- Title: Trust-Region Twisted Policy Improvement
- Title(参考訳): 信頼関係のツイスト政策の改善
- Authors: Joery A. de Vries, Jinke He, Yaniv Oren, Matthijs T. J. Spaan,
- Abstract要約: モンテカルロ木探索(MCTS)は、近年の深層強化学習(RL)におけるブレークスルーを招いている。
我々は、制約された動作サンプリングと明示的な端末状態ハンドリングを通じて、プランナー内のデータ生成を改善することにより、RLに特化したモンテカルロプランナーをカスタマイズする。
これによってTrust-Region Twisted SMC (TRT-SMC) が実現し,個別ドメインと連続ドメインの両方において,ベースラインMCTSおよびSMCメソッドのランタイムおよびサンプル効率が改善された。
- 参考スコア(独自算出の注目度): 8.73717644648873
- License:
- Abstract: Monte-Carlo tree search (MCTS) has driven many recent breakthroughs in deep reinforcement learning (RL). However, scaling MCTS to parallel compute has proven challenging in practice which has motivated alternative planners like sequential Monte-Carlo (SMC). Many of these SMC methods adopt particle filters for smoothing through a reformulation of RL as a policy inference problem. Yet, persisting design choices of these particle filters often conflict with the aim of online planning in RL, which is to obtain a policy improvement at the start of planning. Drawing inspiration from MCTS, we tailor SMC planners specifically for RL by improving data generation within the planner through constrained action sampling and explicit terminal state handling, as well as improving policy and value target estimation. This leads to our Trust-Region Twisted SMC (TRT-SMC), which shows improved runtime and sample-efficiency over baseline MCTS and SMC methods in both discrete and continuous domains.
- Abstract(参考訳): モンテカルロ木探索 (MCTS) は近年, 深部強化学習 (RL) におけるブレークスルーを招いている。
しかし、MCTSを並列計算にスケールすることは実際に困難であることが証明され、シーケンシャルモンテカルロ(SMC)のような代替プランナーの動機となった。
これらのSMC法の多くは、政策推論問題としてRLの改質による平滑化のために粒子フィルタを採用している。
しかし、これらの粒子フィルタの設計選択の継続は、計画開始時に政策改善を得るRLにおけるオンライン計画の目的と矛盾することが多い。
MCTSからインスピレーションを得て、制約された動作サンプリングと明示的な端末状態ハンドリングにより、プランナー内のデータ生成を改善し、ポリシーと値目標推定を改善することにより、RLに特化したSMCプランナーを調整する。
これにより、Trust-Region Twisted SMC (TRT-SMC) が実現し、個別ドメインと連続ドメインの両方において、ベースラインMCTSおよびSMCメソッドよりもランタイムとサンプル効率が改善された。
関連論文リスト
- Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
MCTDは拡散フレームワーク内での探索・探索トレードオフの制御などのMCTSの利点を享受する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Monte Carlo Tree Search [2.20439695290991]
不確実性のある意思決定(DMU)は多くの重要な問題に存在している。
オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。
本稿では,RLの強みと計画の両立を両立させ,弱点を緩和するハイブリッド意思決定手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T22:31:37Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - mlOSP: Towards a Unified Implementation of Regression Monte Carlo
Algorithms [0.0]
最適停止問題に対する機械学習のための計算テンプレートであるmlOSPを紹介する。
テンプレートはR統計環境で実装され、GitHubリポジトリ経由で公開されている。
論文 参考訳(メタデータ) (2020-12-01T18:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。