論文の概要: NS-Gym: Open-Source Simulation Environments and Benchmarks for Non-Stationary Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2501.09646v1
- Date: Thu, 16 Jan 2025 16:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:30.874688
- Title: NS-Gym: Open-Source Simulation Environments and Benchmarks for Non-Stationary Markov Decision Processes
- Title(参考訳): NS-Gym:オープンソースシミュレーション環境と非定常マルコフ決定プロセスのベンチマーク
- Authors: Nathaniel S. Keplinger, Baiting Luo, Iliyas Bektas, Yunuo Zhang, Kyle Hollins Wray, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay,
- Abstract要約: 非定常マルコフ決定過程(NS-MDP)は、変化条件下での意思決定問題をモデル化し解決するための枠組みを提供する。
NS-MDP向けに設計された最初のシミュレーションツールキットであるNS-Gymについて述べる。
- 参考スコア(独自算出の注目度): 10.842682717662834
- License:
- Abstract: In many real-world applications, agents must make sequential decisions in environments where conditions are subject to change due to various exogenous factors. These non-stationary environments pose significant challenges to traditional decision-making models, which typically assume stationary dynamics. Non-stationary Markov decision processes (NS-MDPs) offer a framework to model and solve decision problems under such changing conditions. However, the lack of standardized benchmarks and simulation tools has hindered systematic evaluation and advance in this field. We present NS-Gym, the first simulation toolkit designed explicitly for NS-MDPs, integrated within the popular Gymnasium framework. In NS-Gym, we segregate the evolution of the environmental parameters that characterize non-stationarity from the agent's decision-making module, allowing for modular and flexible adaptations to dynamic environments. We review prior work in this domain and present a toolkit encapsulating key problem characteristics and types in NS-MDPs. This toolkit is the first effort to develop a set of standardized interfaces and benchmark problems to enable consistent and reproducible evaluation of algorithms under non-stationary conditions. We also benchmark six algorithmic approaches from prior work on NS-MDPs using NS-Gym. Our vision is that NS-Gym will enable researchers to assess the adaptability and robustness of their decision-making algorithms to non-stationary conditions.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは、エージェントは様々な外因性要因によって条件が変化する環境においてシーケンシャルな決定をしなければならない。
これらの非定常環境は、通常定常力学を仮定する伝統的な意思決定モデルに重大な課題をもたらす。
非定常マルコフ決定過程(NS-MDP)は、そのような変化条件下での意思決定問題をモデル化し解決するための枠組みを提供する。
しかし、標準化されたベンチマークやシミュレーションツールがないため、この分野では体系的な評価や進歩が妨げられている。
我々は、NS-MDP向けに明示的に設計された最初のシミュレーションツールキットであるNS-Gymを、人気のあるGymnasiumフレームワークに統合する。
NS-Gymでは、エージェントの意思決定モジュールから非定常性を特徴付ける環境パラメータの進化を分離し、動的環境へのモジュラーおよびフレキシブルな適応を可能にする。
本稿では、この領域における先行研究を概観し、NS-MDPにおける鍵問題の特徴と型をカプセル化したツールキットを提案する。
このツールキットは、非定常条件下でのアルゴリズムの一貫した再現可能な評価を可能にするために、一連の標準化されたインタフェースとベンチマーク問題を開発するための最初の試みである。
また, NS-Gym を用いた NS-MDP に関する先行研究から, 6 つのアルゴリズムアプローチのベンチマークを行った。
我々のビジョンは、NS-Gymは研究者が決定アルゴリズムの非定常条件への適応性と堅牢性を評価することを可能にすることである。
関連論文リスト
- R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes [5.276882857467777]
textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。
エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
論文 参考訳(メタデータ) (2024-01-03T17:19:54Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Constrained Environment Optimization for Prioritized Multi-Agent
Navigation [11.473177123332281]
本稿では,システムレベルの最適化問題において,環境を決定変数として考えることを目的とする。
本稿では,非優先順位付け・優先度付けされた環境最適化の新たな問題を提案する。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
論文 参考訳(メタデータ) (2023-05-18T18:55:06Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文 参考訳(メタデータ) (2020-06-17T04:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。