Fugu-MT 論文翻訳(概要): Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes

論文の概要: Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes

arxiv url: http://arxiv.org/abs/2401.01841v3
Date: Mon, 22 Jan 2024 03:43:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 19:27:26.397760
Title: Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov Decision Processes
Title（参考訳）: 学びながら行動する - 非定常マルコフ決定過程における適応的意思決定
Authors: Baiting Luo, Yunuo Zhang, Abhishek Dubey, Ayan Mukhopadhyay
Abstract要約: textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
参考スコア（独自算出の注目度）: 5.276882857467777
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A fundamental (and largely open) challenge in sequential decision-making is dealing with non-stationary environments, where exogenous environmental conditions change over time. Such problems are traditionally modeled as non-stationary Markov decision processes (NSMDP). However, existing approaches for decision-making in NSMDPs have two major shortcomings: first, they assume that the updated environmental dynamics at the current time are known (although future dynamics can change); and second, planning is largely pessimistic, i.e., the agent acts ``safely'' to account for the non-stationary evolution of the environment. We argue that both these assumptions are invalid in practice -- updated environmental conditions are rarely known, and as the agent interacts with the environment, it can learn about the updated dynamics and avoid being pessimistic, at least in states whose dynamics it is confident about. We present a heuristic search algorithm called \textit{Adaptive Monte Carlo Tree Search (ADA-MCTS)} that addresses these challenges. We show that the agent can learn the updated dynamics of the environment over time and then act as it learns, i.e., if the agent is in a region of the state space about which it has updated knowledge, it can avoid being pessimistic. To quantify ``updated knowledge,'' we disintegrate the aleatoric and epistemic uncertainty in the agent's updated belief and show how the agent can use these estimates for decision-making. We compare the proposed approach with the multiple state-of-the-art approaches in decision-making across multiple well-established open-source problems and empirically show that our approach is faster and highly adaptive without sacrificing safety.
Abstract（参考訳）: シーケンシャルな意思決定における基本的な(そしてほとんどオープンな)課題は、時間とともに外生環境が変化する非定常環境を扱うことである。このような問題は伝統的に非定常マルコフ決定過程(NSMDP)としてモデル化されている。しかし、NSMDPにおける意思決定のための既存のアプローチには2つの大きな欠点がある: 第一に、彼らは現在の更新された環境力学が知られていると仮定し(将来の力学は変化しうるが)、第二に、計画は概ね悲観的である。更新された環境条件は滅多に知られておらず、エージェントが環境と相互作用すると、更新されたダイナミクスについて学び、少なくともそれが自信を持っている状態において、悲観的になることを避けることができる。我々は,これらの課題に対処するヒューリスティック探索アルゴリズムである \textit{adaptive monte carlo tree search (ada-mcts)"を提案する。エージェントが更新された環境のダイナミクスを時間とともに学習し、学習しながら行動できること、すなわち、エージェントが更新された知識を持つ状態空間の領域にいる場合、悲観的になることを避けることができる。更新された知識」を定量化するために、エージェントの更新された信念におけるアレター的およびエピステマティックな不確実性を分解し、エージェントがこれらの見積を意思決定にどのように使用できるかを示す。提案手法を,複数の確立したオープンソース問題に対する意思決定における最先端手法と比較し,安全性を犠牲にすることなく,提案手法がより高速かつ高度に適応できることを実証的に示す。

関連論文リスト

SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。 LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文参考訳（メタデータ） (2024-12-02T01:31:13Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文参考訳（メタデータ） (2024-08-06T10:48:15Z)
Uncertainty Quantification for Forward and Inverse Problems of PDEs via Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文参考訳（メタデータ） (2024-02-13T11:22:59Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)
Decision Making in Non-Stationary Environments with Policy-Augmented Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。 PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文参考訳（メタデータ） (2024-01-06T11:51:50Z)
Risk-Sensitive and Robust Model-Based Reinforcement Learning and Planning [2.627046865670577]
我々は、逐次意思決定における計画と強化学習のアプローチに対処する。多くの実世界の領域において、完全に正確なモデルやシミュレータを構築することは不可能である。私たちはモデルベースのアルゴリズムに焦点をあてて、この目標に対して多くのコントリビューションを行います。
論文参考訳（メタデータ） (2023-04-02T16:44:14Z)
Decision Making in Non-Stationary Environments with Policy-Augmented Monte Carlo Tree Search [2.20439695290991]
不確実性のある意思決定(DMU)は多くの重要な問題に存在している。オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。本稿では,RLの強みと計画の両立を両立させ,弱点を緩和するハイブリッド意思決定手法を提案する。
論文参考訳（メタデータ） (2022-02-25T22:31:37Z)
Automated Curriculum Learning for Embodied Agents: A Neuroevolutionary Approach [0.0]
進化的アルゴリズムを,進化的エージェントが評価される環境条件を自動的に選択するカリキュラム学習プロセスで拡張する方法を実証する。その結果, 提案手法が従来のアルゴリズムより優れ, 変動に頑健な解を生成することを示した。
論文参考訳（メタデータ） (2021-02-17T16:19:17Z)
Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文参考訳（メタデータ） (2020-06-30T23:34:37Z)
Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文参考訳（メタデータ） (2020-06-18T17:34:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。