論文の概要: Decision Making in Non-Stationary Environments with Policy-Augmented
Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2202.13003v1
- Date: Fri, 25 Feb 2022 22:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:49:21.683040
- Title: Decision Making in Non-Stationary Environments with Policy-Augmented
Monte Carlo Tree Search
- Title(参考訳): 方針提示モンテカルロ木探索による非定常環境における意思決定
- Authors: Geoffrey Pettet, Ayan Mukhopadhyay, Abhishek Dubey
- Abstract要約: 不確実性のある意思決定(DMU)は多くの重要な問題に存在している。
オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。
本稿では,RLの強みと計画の両立を両立させ,弱点を緩和するハイブリッド意思決定手法を提案する。
- 参考スコア(独自算出の注目度): 2.20439695290991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making under uncertainty (DMU) is present in many important
problems. An open challenge is DMU in non-stationary environments, where the
dynamics of the environment can change over time. Reinforcement Learning (RL),
a popular approach for DMU problems, learns a policy by interacting with a
model of the environment offline. Unfortunately, if the environment changes the
policy can become stale and take sub-optimal actions, and relearning the policy
for the updated environment takes time and computational effort. An alternative
is online planning approaches such as Monte Carlo Tree Search (MCTS), which
perform their computation at decision time. Given the current environment, MCTS
plans using high-fidelity models to determine promising action trajectories.
These models can be updated as soon as environmental changes are detected to
immediately incorporate them into decision making. However, MCTS's convergence
can be slow for domains with large state-action spaces. In this paper, we
present a novel hybrid decision-making approach that combines the strengths of
RL and planning while mitigating their weaknesses. Our approach, called Policy
Augmented MCTS (PA-MCTS), integrates a policy's actin-value estimates into
MCTS, using the estimates to seed the action trajectories favored by the
search. We hypothesize that PA-MCTS will converge more quickly than standard
MCTS while making better decisions than the policy can make on its own when
faced with nonstationary environments. We test our hypothesis by comparing
PA-MCTS with pure MCTS and an RL agent applied to the classical CartPole
environment. We find that PC-MCTS can achieve higher cumulative rewards than
the policy in isolation under several environmental shifts while converging in
significantly fewer iterations than pure MCTS.
- Abstract(参考訳): 不確実性のある意思決定(DMU)は多くの重要な問題に存在している。
オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。
DMU問題に対する一般的なアプローチである強化学習(RL)は、オフラインで環境モデルと対話することでポリシーを学ぶ。
残念なことに、もし環境が変化すれば、政策は不安定になり、準最適行動を取ることができ、更新された環境に対するポリシーの再学習には時間と計算の労力がかかる。
別の方法として、モンテカルロ木探索(mcts)のようなオンライン計画手法があり、決定時に計算を行う。
現在の環境を考えると、MCTSは将来的な行動軌跡を決定するために高忠実度モデルを使用する計画である。
これらのモデルは、環境変化を検出してすぐに意思決定に組み込むとすぐに更新できる。
しかし、MCTSの収束は大きな状態作用空間を持つ領域では遅くなる。
本稿では,rlの強みと計画の強みを融合し,弱みを緩和する新たなハイブリッド意思決定手法を提案する。
提案手法はPA-MCTS(Policy Augmented MCTS)と呼ばれ,ポリシーのアクチン値推定値をMCTSに統合し,その推定値を用いて検索に好まれる行動軌跡を抽出する。
我々は,PA-MCTSが標準MCTSよりも早く収束する一方で,非定常環境に直面した場合の政策よりも優れた意思決定を行うという仮説を立てる。
PA-MCTSと純粋なMCTSと古典的なCartPole環境に適用したRLエージェントを比較し,本仮説を検証した。
その結果,pc-mctsは,いくつかの環境変化下で,個別の政策よりも高い累積報酬を得られることが判明した。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。
行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文 参考訳(メタデータ) (2024-01-06T11:51:50Z) - Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes [5.276882857467777]
textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。
エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
論文 参考訳(メタデータ) (2024-01-03T17:19:54Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。