論文の概要: NS-Gym: Open-Source Simulation Environments and Benchmarks for Non-Stationary Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2501.09646v1
- Date: Thu, 16 Jan 2025 16:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 16:36:32.5246
- Title: NS-Gym: Open-Source Simulation Environments and Benchmarks for Non-Stationary Markov Decision Processes
- Title(参考訳): NS-Gym:オープンソースシミュレーション環境と非定常マルコフ決定プロセスのベンチマーク
- Authors: Nathaniel S. Keplinger, Baiting Luo, Iliyas Bektas, Yunuo Zhang, Kyle Hollins Wray, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay,
- Abstract要約: 非定常マルコフ決定過程(NS-MDP)は、変化条件下での意思決定問題をモデル化し解決するための枠組みを提供する。
NS-MDP向けに設計された最初のシミュレーションツールキットであるNS-Gymについて述べる。
- 参考スコア(独自算出の注目度): 10.842682717662834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many real-world applications, agents must make sequential decisions in environments where conditions are subject to change due to various exogenous factors. These non-stationary environments pose significant challenges to traditional decision-making models, which typically assume stationary dynamics. Non-stationary Markov decision processes (NS-MDPs) offer a framework to model and solve decision problems under such changing conditions. However, the lack of standardized benchmarks and simulation tools has hindered systematic evaluation and advance in this field. We present NS-Gym, the first simulation toolkit designed explicitly for NS-MDPs, integrated within the popular Gymnasium framework. In NS-Gym, we segregate the evolution of the environmental parameters that characterize non-stationarity from the agent's decision-making module, allowing for modular and flexible adaptations to dynamic environments. We review prior work in this domain and present a toolkit encapsulating key problem characteristics and types in NS-MDPs. This toolkit is the first effort to develop a set of standardized interfaces and benchmark problems to enable consistent and reproducible evaluation of algorithms under non-stationary conditions. We also benchmark six algorithmic approaches from prior work on NS-MDPs using NS-Gym. Our vision is that NS-Gym will enable researchers to assess the adaptability and robustness of their decision-making algorithms to non-stationary conditions.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは、エージェントは様々な外因性要因によって条件が変化する環境においてシーケンシャルな決定をしなければならない。
これらの非定常環境は、通常定常力学を仮定する伝統的な意思決定モデルに重大な課題をもたらす。
非定常マルコフ決定過程(NS-MDP)は、そのような変化条件下での意思決定問題をモデル化し解決するための枠組みを提供する。
しかし、標準化されたベンチマークやシミュレーションツールがないため、この分野では体系的な評価や進歩が妨げられている。
我々は、NS-MDP向けに明示的に設計された最初のシミュレーションツールキットであるNS-Gymを、人気のあるGymnasiumフレームワークに統合する。
NS-Gymでは、エージェントの意思決定モジュールから非定常性を特徴付ける環境パラメータの進化を分離し、動的環境へのモジュラーおよびフレキシブルな適応を可能にする。
本稿では、この領域における先行研究を概観し、NS-MDPにおける鍵問題の特徴と型をカプセル化したツールキットを提案する。
このツールキットは、非定常条件下でのアルゴリズムの一貫した再現可能な評価を可能にするために、一連の標準化されたインタフェースとベンチマーク問題を開発するための最初の試みである。
また, NS-Gym を用いた NS-MDP に関する先行研究から, 6 つのアルゴリズムアプローチのベンチマークを行った。
我々のビジョンは、NS-Gymは研究者が決定アルゴリズムの非定常条件への適応性と堅牢性を評価することを可能にすることである。
関連論文リスト
- AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。
まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。
次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。
この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2026-02-11T20:33:10Z) - AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments [7.201566646241765]
コンフォーマル予測法は、コンフォーマル閾値を適応的にスケーリングすることで目標範囲を維持する。
この固定幾何は, 環境が構造変化を起こすと, 極めて保守的で, 容積非効率な予測領域につながることを示す。
非整合スコアパラメータと整合しきい値の両方をオンライン化するためのフレームワークである textbfAdaptNC を提案する。
論文 参考訳(メタデータ) (2026-02-02T04:41:35Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Non-stationary and Varying-discounting Markov Decision Processes for Reinforcement Learning [1.6328866317851185]
非定常的・分散的MDPフレームワークを導入し、非定常性を自然に許容し、時間や遷移に応じて割引率を変化させる。
我々はNVMDPの理論的基礎を確立し、仮定、状態値、行動値の定式化、再帰を含む。
我々は動的プログラミングと一般化されたQ-ラーニングアルゴリズムをNVMDPに適応し、公式な収束証明を行う。
論文 参考訳(メタデータ) (2025-11-17T23:00:04Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes [5.276882857467777]
textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。
エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
論文 参考訳(メタデータ) (2024-01-03T17:19:54Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework [2.741266294612776]
逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
論文 参考訳(メタデータ) (2020-06-17T04:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。