論文の概要: Model-Free Learning and Optimal Policy Design in Multi-Agent MDPs Under
Probabilistic Agent Dropout
- arxiv url: http://arxiv.org/abs/2304.12458v1
- Date: Mon, 24 Apr 2023 21:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:35:44.015056
- Title: Model-Free Learning and Optimal Policy Design in Multi-Agent MDPs Under
Probabilistic Agent Dropout
- Title(参考訳): 確率エージェントドロップアウト下におけるマルチエージェントmdpのモデルフリー学習と最適ポリシー設計
- Authors: Carmel Fiscko, Soummya Kar, Bruno Sinopoli
- Abstract要約: 本研究では,事前ドロップアウトシステムの制御とサンプリングに基づくポストドロップアウトシステムのポリシーの計算について検討する。
特定のドロップアウト実現のための最適なポリシーを見つけることは、この問題の特別な場合である。
- 参考スコア(独自算出の注目度): 9.18498730379129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies a multi-agent Markov decision process (MDP) that can
undergo agent dropout and the computation of policies for the post-dropout
system based on control and sampling of the pre-dropout system. The
controller's objective is to find an optimal policy that maximizes the value of
the expected system given a priori knowledge of the agents' dropout
probabilities. Finding an optimal policy for any specific dropout realization
is a special case of this problem. For MDPs with a certain transition
independence and reward separability structure, we assume that removing agents
from the system forms a new MDP comprised of the remaining agents with new
state and action spaces, transition dynamics that marginalize the removed
agents, and rewards that are independent of the removed agents. We first show
that under these assumptions, the value of the expected post-dropout system can
be represented by a single MDP; this "robust MDP" eliminates the need to
evaluate all $2^N$ realizations of the system, where $N$ denotes the number of
agents. More significantly, in a model-free context, it is shown that the
robust MDP value can be estimated with samples generated by the pre-dropout
system, meaning that robust policies can be found before dropout occurs. This
fact is used to propose a policy importance sampling (IS) routine that performs
policy evaluation for dropout scenarios while controlling the existing system
with good pre-dropout policies. The policy IS routine produces value estimates
for both the robust MDP and specific post-dropout system realizations and is
justified with exponential confidence bounds. Finally, the utility of this
approach is verified in simulation, showing how structural properties of agent
dropout can help a controller find good post-dropout policies before dropout
occurs.
- Abstract(参考訳): 本研究では,エージェントドロップアウトを行うマルチエージェントマルコフ決定プロセス(MDP)と,事前ドロップアウトシステムの制御とサンプリングに基づくポストドロップアウトシステムのポリシーの計算について検討する。
コントローラの目的は、エージェントのドロップアウト確率の事前知識により、期待されるシステムの価値を最大化する最適なポリシーを見つけることである。
特定のドロップアウト実現のための最適なポリシーを見つけることは、この問題の特別な場合である。
特定の遷移独立性と報酬分離性構造を持つMDPに対して、システムからエージェントを取り除くことは、新しい状態と行動空間を持つ残りのエージェントと、除去されたエージェントを疎外する遷移ダイナミクスと、除去されたエージェントとは独立な報酬からなる新しいMDPを形成すると仮定する。
この「ロバストmdp」は、システムの全2^n$実現度を評価する必要をなくし、そこでは$n$がエージェント数を表す。
さらに,モデルフリーの文脈では,事前ドロップアウトシステムによって生成されたサンプルを用いてロバストなmdp値を推定できること,つまり,ドロップアウトが発生する前にロバストなポリシを発見できることが示されている。
この事実は、ドロップアウトシナリオに対するポリシー評価を行うための政策重要サンプリング(IS)ルーチンの提案に利用され、既存のシステムを適切なドロップアウトポリシーで制御する。
ポリシーISルーチンは、堅牢なMDPと特定のドロップアウトシステムの実現の両方に対して値推定を生成し、指数的信頼境界で正当化される。
最後に、このアプローチの有用性をシミュレーションで検証し、エージェントドロップアウトの構造特性が、ドロップアウトが起こる前にコントローラが適切なドロップアウトポリシーを見つけるのにどのように役立つかを示す。
関連論文リスト
- Simulation-Based Optimistic Policy Iteration For Multi-Agent MDPs with Kullback-Leibler Control Cost [3.9052860539161918]
本稿では,マルコフ決定過程(MDP)における定常最適ポリシー学習のためのエージェントベース楽観的ポリシー(OPI)手法を提案する。
提案手法は, 強欲政策改善段階とm段階時間差(TD)政策評価段階から構成される。
我々は,OPIスキームの同期(入出力状態空間の評価)と非同期(一様にサンプリングされたサブステートの集合)の両バージョンが,最適値関数と最適共同ポリシーのロールアウトに収束することを示した。
論文 参考訳(メタデータ) (2024-10-19T17:00:23Z) - Conformal Off-Policy Prediction for Multi-Agent Systems [6.32674891108819]
オフポリシィ予測(OPP)は、安全クリティカルシステムのデータ駆動分析における最重要課題である。
マルチエージェントシステムに関わるOPP問題を解くための最初の共形予測手法であるMA-COPPを紹介する。
MA-COPPの重要な貢献は、エージェント軌道の出力空間の列挙や徹底的な探索を避けることである。
論文 参考訳(メタデータ) (2024-03-25T15:37:43Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Solving the non-preemptive two queue polling model with generally
distributed service and switch-over durations and Poisson arrivals as a
Semi-Markov Decision Process [0.0]
スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。
離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。
本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。
論文 参考訳(メタデータ) (2021-12-13T11:40:55Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。