論文の概要: Model-Free Learning and Optimal Policy Design in Multi-Agent MDPs Under
Probabilistic Agent Dropout
- arxiv url: http://arxiv.org/abs/2304.12458v1
- Date: Mon, 24 Apr 2023 21:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:35:44.015056
- Title: Model-Free Learning and Optimal Policy Design in Multi-Agent MDPs Under
Probabilistic Agent Dropout
- Title(参考訳): 確率エージェントドロップアウト下におけるマルチエージェントmdpのモデルフリー学習と最適ポリシー設計
- Authors: Carmel Fiscko, Soummya Kar, Bruno Sinopoli
- Abstract要約: 本研究では,事前ドロップアウトシステムの制御とサンプリングに基づくポストドロップアウトシステムのポリシーの計算について検討する。
特定のドロップアウト実現のための最適なポリシーを見つけることは、この問題の特別な場合である。
- 参考スコア(独自算出の注目度): 9.18498730379129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work studies a multi-agent Markov decision process (MDP) that can
undergo agent dropout and the computation of policies for the post-dropout
system based on control and sampling of the pre-dropout system. The
controller's objective is to find an optimal policy that maximizes the value of
the expected system given a priori knowledge of the agents' dropout
probabilities. Finding an optimal policy for any specific dropout realization
is a special case of this problem. For MDPs with a certain transition
independence and reward separability structure, we assume that removing agents
from the system forms a new MDP comprised of the remaining agents with new
state and action spaces, transition dynamics that marginalize the removed
agents, and rewards that are independent of the removed agents. We first show
that under these assumptions, the value of the expected post-dropout system can
be represented by a single MDP; this "robust MDP" eliminates the need to
evaluate all $2^N$ realizations of the system, where $N$ denotes the number of
agents. More significantly, in a model-free context, it is shown that the
robust MDP value can be estimated with samples generated by the pre-dropout
system, meaning that robust policies can be found before dropout occurs. This
fact is used to propose a policy importance sampling (IS) routine that performs
policy evaluation for dropout scenarios while controlling the existing system
with good pre-dropout policies. The policy IS routine produces value estimates
for both the robust MDP and specific post-dropout system realizations and is
justified with exponential confidence bounds. Finally, the utility of this
approach is verified in simulation, showing how structural properties of agent
dropout can help a controller find good post-dropout policies before dropout
occurs.
- Abstract(参考訳): 本研究では,エージェントドロップアウトを行うマルチエージェントマルコフ決定プロセス(MDP)と,事前ドロップアウトシステムの制御とサンプリングに基づくポストドロップアウトシステムのポリシーの計算について検討する。
コントローラの目的は、エージェントのドロップアウト確率の事前知識により、期待されるシステムの価値を最大化する最適なポリシーを見つけることである。
特定のドロップアウト実現のための最適なポリシーを見つけることは、この問題の特別な場合である。
特定の遷移独立性と報酬分離性構造を持つMDPに対して、システムからエージェントを取り除くことは、新しい状態と行動空間を持つ残りのエージェントと、除去されたエージェントを疎外する遷移ダイナミクスと、除去されたエージェントとは独立な報酬からなる新しいMDPを形成すると仮定する。
この「ロバストmdp」は、システムの全2^n$実現度を評価する必要をなくし、そこでは$n$がエージェント数を表す。
さらに,モデルフリーの文脈では,事前ドロップアウトシステムによって生成されたサンプルを用いてロバストなmdp値を推定できること,つまり,ドロップアウトが発生する前にロバストなポリシを発見できることが示されている。
この事実は、ドロップアウトシナリオに対するポリシー評価を行うための政策重要サンプリング(IS)ルーチンの提案に利用され、既存のシステムを適切なドロップアウトポリシーで制御する。
ポリシーISルーチンは、堅牢なMDPと特定のドロップアウトシステムの実現の両方に対して値推定を生成し、指数的信頼境界で正当化される。
最後に、このアプローチの有用性をシミュレーションで検証し、エージェントドロップアウトの構造特性が、ドロップアウトが起こる前にコントローラが適切なドロップアウトポリシーを見つけるのにどのように役立つかを示す。
関連論文リスト
- Conformal Off-Policy Prediction for Multi-Agent Systems [6.32674891108819]
マルチエージェントシステムに関わるOPP問題を解くための最初の共形予測手法であるMA-COPPを紹介する。
MA-COPPの重要な貢献は、エージェント軌道の出力空間の列挙や徹底的な探索を避けることである。
我々は,PetttingZooライブラリとF1TENTH自律走行環境のマルチエージェントシステムにおけるMA-COPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-25T15:37:43Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Solving the non-preemptive two queue polling model with generally
distributed service and switch-over durations and Poisson arrivals as a
Semi-Markov Decision Process [0.0]
スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。
離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。
本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。
論文 参考訳(メタデータ) (2021-12-13T11:40:55Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Self-Triggered Markov Decision Processes [29.440329760873087]
我々は、自己トリガー制御の概念がより汎用的なMDPモデルに拡張される自己トリガー戦略でマルコフ決定プロセス(MDP)を研究します。
制御政策とトリガー政策の協調設計問題について検討し、2つの事前定義されたコスト基準を最適化する。
論文 参考訳(メタデータ) (2021-02-17T04:41:44Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。