論文の概要: Model-Based Exploration in Monitored Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2502.16772v1
- Date: Mon, 24 Feb 2025 01:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:10.217823
- Title: Model-Based Exploration in Monitored Markov Decision Processes
- Title(参考訳): マルコフ決定過程のモデルに基づく探索
- Authors: Alireza Kazemipour, Simone Parisi, Matthew E. Taylor, Michael Bowling,
- Abstract要約: モニターされたマルコフ決定プロセス(Mon-MDP)は、最近そのような設定のモデルとして提案されている。
これまで開発された Mon-MDP アルゴリズムは問題構造を完全に活用していない。
我々は,これらすべての欠点に対処するMon-MDPのモデルベースアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.438015964569743
- License:
- Abstract: A tenet of reinforcement learning is that rewards are always observed by the agent. However, this is not true in many realistic settings, e.g., a human observer may not always be able to provide rewards, a sensor to observe rewards may be limited or broken, or rewards may be unavailable during deployment. Monitored Markov decision processes (Mon-MDPs) have recently been proposed as a model of such settings. Yet, Mon-MDP algorithms developed thus far do not fully exploit the problem structure, cannot take advantage of a known monitor, have no worst-case guarantees for ``unsolvable'' Mon-MDPs without specific initialization, and only have asymptotic proofs of convergence. This paper makes three contributions. First, we introduce a model-based algorithm for Mon-MDPs that addresses all of these shortcomings. The algorithm uses two instances of model-based interval estimation, one to guarantee that observable rewards are indeed observed, and another to learn the optimal policy. Second, empirical results demonstrate these advantages, showing faster convergence than prior algorithms in over two dozen benchmark settings, and even more dramatic improvements when the monitor process is known. Third, we present the first finite-sample bound on performance and show convergence to an optimal worst-case policy when some rewards are never observable.
- Abstract(参考訳): 強化学習の要点は、報酬は常にエージェントによって観察されることである。
しかし、これは現実的な多くの設定では正しくない。例えば、人間のオブザーバーが必ずしも報酬を提供することができない場合や、報酬を観察するセンサーが制限されたり壊れたり、あるいはデプロイメント中に報酬が利用できない場合などである。
モニターされたマルコフ決定プロセス(Mon-MDP)は、最近そのような設定のモデルとして提案されている。
しかし、これまでに開発されたMon-MDPアルゴリズムは、問題構造を完全に活用せず、既知のモニターを活用できず、特定の初期化を伴わずに '`unsolvable'' の Mon-MDP の最悪の保証がなく、漸近的な収束の証明しか持たない。
この論文には3つの貢献がある。
まず,これらすべての欠点に対処するモデルベースのMon-MDPアルゴリズムを提案する。
このアルゴリズムは2つのモデルに基づく間隔推定のインスタンスを使用し、1つは観測可能な報酬が実際に観測されていることを保証し、もう1つは最適なポリシーを学習する。
第2に、実証的な結果はこれらの利点を示し、従来のアルゴリズムよりも2ダース以上のベンチマーク設定での収束が早くなり、モニタプロセスが分かっている場合にさらに劇的な改善が見られた。
第3に、性能に縛られる最初の有限サンプルを示し、いくつかの報酬が観測不可能な場合に最適な最悪の政策に収束することを示す。
関連論文リスト
- Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Monitoring Algorithmic Fairness under Partial Observations [3.790015813774933]
実行時検証技術は、デプロイされたシステムのアルゴリズム的公正性を監視するために導入された。
従来の監視技術は、監視されたシステムの状態の完全な可観測性を前提としている。
我々は、部分的に観測されたマルコフ連鎖としてモデル化されたシステムにフェアネスモニタリングを拡張した。
論文 参考訳(メタデータ) (2023-08-01T07:35:54Z) - B$^3$RTDP: A Belief Branch and Bound Real-Time Dynamic Programming
Approach to Solving POMDPs [17.956744635160568]
我々は,Belief Branch and Bound RTDP (B$3$RTDP) と呼ぶRTDP-Belアルゴリズムの拡張を提案する。
我々のアルゴリズムは有界値関数表現を使い、これを2つの新しい方法で活用する。
B$3$RTDPは、既知のPOMDP問題に対する最先端のSARSOP解法よりも少ない時間で大きなリターンが得られることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-22T21:42:59Z) - Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making [48.87943416098096]
本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-09-29T17:56:25Z) - PAC Statistical Model Checking of Mean Payoff in Discrete- and
Continuous-Time MDP [0.34410212782758043]
我々は,未知のMDPにおいて,平均ペイオフをほぼ正確に計算する最初のアルゴリズムを提供する。
状態空間に関する知識は一切必要とせず、最小遷移確率の低い境界のみである。
提案アルゴリズムは, ほぼ正しいPAC境界を提供するだけでなく, 標準ベンチマークで実験を行うことにより, その実用性を実証する。
論文 参考訳(メタデータ) (2022-06-03T09:13:27Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。