論文の概要: Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes
- arxiv url: http://arxiv.org/abs/2401.01841v2
- Date: Mon, 15 Jan 2024 20:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 23:49:43.216562
- Title: Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes
- Title(参考訳): 学びながら行動する - 非定常マルコフ決定過程における適応的意思決定
- Authors: Baiting Luo, Yunuo Zhang, Abhishek Dubey, Ayan Mukhopadhyay
- Abstract要約: textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。
エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
- 参考スコア(独自算出の注目度): 5.276882857467777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental (and largely open) challenge in sequential decision-making is
dealing with non-stationary environments, where exogenous environmental
conditions change over time. Such problems are traditionally modeled as
non-stationary Markov decision processes (NSMDP). However, existing approaches
for decision-making in NSMDPs have two major shortcomings: first, they assume
that the updated environmental dynamics at the current time are known (although
future dynamics can change); and second, planning is largely pessimistic, i.e.,
the agent acts ``safely'' to account for the non-stationary evolution of the
environment. We argue that both these assumptions are invalid in practice --
updated environmental conditions are rarely known, and as the agent interacts
with the environment, it can learn about the updated dynamics and avoid being
pessimistic, at least in states whose dynamics it is confident about. We
present a heuristic search algorithm called \textit{Adaptive Monte Carlo Tree
Search (ADA-MCTS)} that addresses these challenges. We show that the agent can
learn the updated dynamics of the environment over time and then act as it
learns, i.e., if the agent is in a region of the state space about which it has
updated knowledge, it can avoid being pessimistic. To quantify ``updated
knowledge,'' we disintegrate the aleatoric and epistemic uncertainty in the
agent's updated belief and show how the agent can use these estimates for
decision-making. We compare the proposed approach with the multiple
state-of-the-art approaches in decision-making across multiple well-established
open-source problems and empirically show that our approach is faster and
highly adaptive without sacrificing safety.
- Abstract(参考訳): シーケンシャルな意思決定における基本的な(そしてほとんどオープンな)課題は、時間とともに外生環境が変化する非定常環境を扱うことである。
このような問題は伝統的に非定常マルコフ決定過程(NSMDP)としてモデル化されている。
しかし、NSMDPにおける意思決定のための既存のアプローチには2つの大きな欠点がある: 第一に、彼らは現在の更新された環境力学が知られていると仮定し(将来の力学は変化しうるが)、第二に、計画は概ね悲観的である。
更新された環境条件は滅多に知られておらず、エージェントが環境と相互作用すると、更新されたダイナミクスについて学び、少なくともそれが自信を持っている状態において、悲観的になることを避けることができる。
我々は,これらの課題に対処するヒューリスティック探索アルゴリズムである \textit{adaptive monte carlo tree search (ada-mcts)"を提案する。
エージェントが更新された環境のダイナミクスを時間とともに学習し、学習しながら行動できること、すなわち、エージェントが更新された知識を持つ状態空間の領域にいる場合、悲観的になることを避けることができる。
更新された知識」を定量化するために、エージェントの更新された信念におけるアレター的およびエピステマティックな不確実性を分解し、エージェントがこれらの見積を意思決定にどのように使用できるかを示す。
提案手法を,複数の確立したオープンソース問題に対する意思決定における最先端手法と比較し,安全性を犠牲にすることなく,提案手法がより高速かつ高度に適応できることを実証的に示す。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。
行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文 参考訳(メタデータ) (2024-01-06T11:51:50Z) - Risk-Sensitive and Robust Model-Based Reinforcement Learning and
Planning [2.627046865670577]
我々は、逐次意思決定における計画と強化学習のアプローチに対処する。
多くの実世界の領域において、完全に正確なモデルやシミュレータを構築することは不可能である。
私たちはモデルベースのアルゴリズムに焦点をあてて、この目標に対して多くのコントリビューションを行います。
論文 参考訳(メタデータ) (2023-04-02T16:44:14Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Monte Carlo Tree Search [2.20439695290991]
不確実性のある意思決定(DMU)は多くの重要な問題に存在している。
オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。
本稿では,RLの強みと計画の両立を両立させ,弱点を緩和するハイブリッド意思決定手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T22:31:37Z) - Automated Curriculum Learning for Embodied Agents: A Neuroevolutionary
Approach [0.0]
進化的アルゴリズムを,進化的エージェントが評価される環境条件を自動的に選択するカリキュラム学習プロセスで拡張する方法を実証する。
その結果, 提案手法が従来のアルゴリズムより優れ, 変動に頑健な解を生成することを示した。
論文 参考訳(メタデータ) (2021-02-17T16:19:17Z) - Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文 参考訳(メタデータ) (2020-06-30T23:34:37Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。