論文の概要: Generalization in Monitored Markov Decision Processes (Mon-MDPs)
- arxiv url: http://arxiv.org/abs/2505.08988v1
- Date: Tue, 13 May 2025 21:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.304056
- Title: Generalization in Monitored Markov Decision Processes (Mon-MDPs)
- Title(参考訳): モニターマルコフ決定過程(Mon-MDP)の一般化
- Authors: Montaser Mohammedalamen, Michael Bowling,
- Abstract要約: 多くの実世界のシナリオでは、報酬は常に観測可能であるわけではなく、モニターされたマルコフ決定プロセス(Mon-MDP)としてモデル化することができる。
本研究は,関数近似(FA)を用いてMon-MDPを探索し,関連する課題について検討する。
学習した報酬モデルと関数近似を組み合わせることで,監視対象状態から監視対象環境状態へ,監視対象状態から監視対象環境までの報酬を一般化できることを示す。
- 参考スコア(独自算出の注目度): 9.81003561034599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) typically models the interaction between the agent and environment as a Markov decision process (MDP), where the rewards that guide the agent's behavior are always observable. However, in many real-world scenarios, rewards are not always observable, which can be modeled as a monitored Markov decision process (Mon-MDP). Prior work on Mon-MDPs have been limited to simple, tabular cases, restricting their applicability to real-world problems. This work explores Mon-MDPs using function approximation (FA) and investigates the challenges involved. We show that combining function approximation with a learned reward model enables agents to generalize from monitored states with observable rewards, to unmonitored environment states with unobservable rewards. Therefore, we demonstrate that such generalization with a reward model achieves near-optimal policies in environments formally defined as unsolvable. However, we identify a critical limitation of such function approximation, where agents incorrectly extrapolate rewards due to overgeneralization, resulting in undesirable behaviors. To mitigate overgeneralization, we propose a cautious police optimization method leveraging reward uncertainty. This work serves as a step towards bridging this gap between Mon-MDP theory and real-world applications.
- Abstract(参考訳): 強化学習(RL)は通常、エージェントと環境の間の相互作用をマルコフ決定プロセス(MDP)としてモデル化する。
しかし、現実世界の多くのシナリオでは報酬は常に観測可能であるわけではなく、モニターされたマルコフ決定プロセス(Mon-MDP)としてモデル化することができる。
Mon-MDPの以前の研究は、単純な表形式のケースに限られており、実際の問題に適用性に制限されている。
本研究は,関数近似(FA)を用いてMon-MDPを探索し,関連する課題について検討する。
学習した報酬モデルと関数近似を組み合わせることで,監視対象状態から監視対象環境状態へ,監視対象状態から監視対象環境までの報酬を一般化できることを示す。
したがって, 報酬モデルを用いた一般化は, 公式には解決不可能と定義されている環境において, ほぼ最適のポリシーを達成できることを実証する。
しかし, エージェントが過剰な一般化による報酬を誤って外挿し, 望ましくない振る舞いを生じさせるような, 関数近似の限界を同定する。
過度な一般化を緩和するために,報酬の不確実性を利用した慎重な警察最適化手法を提案する。
この研究は、Mon-MDP理論と現実世界のアプリケーションの間のギャップを埋めるためのステップとなる。
関連論文リスト
- Model-Based Exploration in Monitored Markov Decision Processes [15.438015964569743]
モニターされたマルコフ決定プロセス(Mon-MDP)は、最近そのような設定のモデルとして提案されている。
これまで開発された Mon-MDP アルゴリズムは問題構造を完全に活用していない。
我々は,これらすべての欠点に対処するMon-MDPのモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-24T01:35:32Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization [39.740287682191884]
ロバストマルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
このいわゆる長方性条件は、単に計算上の問題によって動機付けられている。
政策段階の手法を導入し,その収束性を証明する。
論文 参考訳(メタデータ) (2023-09-03T07:34:26Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Explainable Reinforcement Learning via Model Transforms [18.385505289067023]
基礎となるマルコフ決定プロセスが完全には分かっていないとしても、それにもかかわらず、自動的に説明を生成するために利用することができる、と我々は主張する。
本稿では,従来の文献で最適ポリシー探索の高速化に用いられていた形式的MDP抽象化と変換を用いて,説明を自動的に生成することを提案する。
論文 参考訳(メタデータ) (2022-09-24T13:18:06Z) - Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。
限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。
我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文 参考訳(メタデータ) (2021-07-13T17:59:25Z) - Reward is enough for convex MDPs [30.478950691312715]
静止分布の凸関数として目標が表現される凸MDPについて検討する。
本稿では,この問題を解決するメタアルゴリズムを提案し,文献における既存のアルゴリズムを統一することを示す。
論文 参考訳(メタデータ) (2021-06-01T17:46:25Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。