論文の概要: Synthesizing Policies That Account For Human Execution Errors Caused By
StateAliasing In Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2109.07436v1
- Date: Wed, 15 Sep 2021 17:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:03:24.536762
- Title: Synthesizing Policies That Account For Human Execution Errors Caused By
StateAliasing In Markov Decision Processes
- Title(参考訳): マルコフ決定過程のステートエイリアスによる人的実行エラーを考慮に入れた合成法
- Authors: Sriram Gopalakrishnan, Mudit Verma, Subbarao Kambhampati
- Abstract要約: 最適なMDPポリシーは、(人間のエージェントのために)悪用されていないが、エラーが少なく実行される他のポリシーよりもはるかに悪い。
本研究では, 国家の不確実性による非政治行動のような不適切な行為(遅延)の可能性をモデル化する枠組みを提案する。
次に、最適なポリシーを見つけるために、分岐と有界なアルゴリズムでバイヒルクライミング(byhill climbing)の最良のポリシーを使用する。
- 参考スコア(独自算出の注目度): 15.450115485745767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When humans are given a policy to execute, there can be pol-icy execution
errors and deviations in execution if there is un-certainty in identifying a
state. So an algorithm that computesa policy for a human to execute ought to
consider these effectsin its computations. An optimal MDP policy that is poorly
ex-ecuted (because of a human agent) maybe much worse thananother policy that
is executed with fewer errors. In this pa-per, we consider the problems of
erroneous execution and ex-ecution delay when computing policies for a human
agent thatwould act in a setting modeled by a Markov Decision Process(MDP). We
present a framework to model the likelihood ofpolicy execution errors and
likelihood of non-policy actionslike inaction (delays) due to state
uncertainty. This is followedby a hill climbing algorithm to search for good
policies thataccount for these errors. We then use the best policy found byhill
climbing with a branch and bound algorithm to find theoptimal policy. We show
experimental results in a Gridworlddomain and analyze the performance of the
two algorithms.We also present human studies that verify if our assumptionson
policy execution by humans under state-aliasing are rea-sonable.
- Abstract(参考訳): 人間が実行するポリシーが与えられると、状態を特定する上で不確実性がある場合、po-icyの実行エラーや実行時の逸脱が発生する可能性がある。
したがって、人間が実行するためのアルゴリズムは、その計算にこれらの効果を考慮すべきである。
最適なmdpポリシーは、(人間のエージェントのために)(おそらく)、より少ないエラーで実行される他のポリシーよりもはるかに悪い。
本稿では,マルコフ決定プロセス(MDP)によってモデル化された設定で機能する人間エージェントの計算ポリシーにおいて,誤った実行と前処理遅延の問題を考察する。
我々は, 状態の不確実性による非政治的行為様不動(デレイ)の可能性と, 政治的実行誤差の可能性をモデル化する枠組みを提案する。
続いてヒルクライミングアルゴリズムが、これらのエラーを考慮に入れた適切なポリシーを探索する。
次に、分岐と有界なアルゴリズムでバイヒルクライミングの最良のポリシーを使い、最適ポリシーを見つけます。
我々はグリッドワールドドメインで実験結果を示し、2つのアルゴリズムの性能を解析し、また、状態認識下での人間による仮定ポリシーの実行が許容可能かどうかを検証した。
関連論文リスト
- Oracle-Efficient Reinforcement Learning for Max Value Ensembles [7.404901768256101]
大または無限の状態空間における強化学習(RL)は、理論上、実験的に困難である。
この作業では、$textitmax-following Policy$と競合することを目指しています。
我々の主な成果は、構成ポリシーのみにアクセスすると、最大フォローポリシーと競合する効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-27T01:08:23Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum
Markov Games [10.805520579293747]
ゲームに対するナイーブなポリシー反復の単純な変種は指数関数的に高速に収束することを示す。
また、線形マルコフゲームの関数近似設定において、ルックアヘッドポリシーを効率的に実装できることを示す。
論文 参考訳(メタデータ) (2023-03-17T01:20:22Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Modeling Strong and Human-Like Gameplay with KL-Regularized Search [64.24339197581769]
我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
論文 参考訳(メタデータ) (2021-12-14T16:52:49Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Acting in Delayed Environments with Non-Stationary Markov Policies [57.52103323209643]
本稿では,MDPにおける学習と計画のためのフレームワークについて紹介する。
実行が遅れると、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常である必要があることを証明します。
我々は、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習スタイルのモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-01-28T13:35:37Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。