論文の概要: Solving infinite-horizon Dec-POMDPs using Finite State Controllers
within JESP
- arxiv url: http://arxiv.org/abs/2109.08755v1
- Date: Fri, 17 Sep 2021 20:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:35:11.482392
- Title: Solving infinite-horizon Dec-POMDPs using Finite State Controllers
within JESP
- Title(参考訳): JESP内有限状態制御器を用いた無限水平デコポドップの解法
- Authors: Yang You, Vincent Thomas, Francis Colas and Olivier Buffet
- Abstract要約: 本稿では,分散POMDP (Dec-POMDP) として定式化された協調計画問題の解法について考察する。
本稿では,有限状態制御器 (FSC) ポリシー表現を用いて, 無限水平DEC-POMDPに適応することを提案する。
- 参考スコア(独自算出の注目度): 12.078803977528617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper looks at solving collaborative planning problems formalized as
Decentralized POMDPs (Dec-POMDPs) by searching for Nash equilibria, i.e.,
situations where each agent's policy is a best response to the other agents'
(fixed) policies. While the Joint Equilibrium-based Search for Policies (JESP)
algorithm does this in the finite-horizon setting relying on policy trees, we
propose here to adapt it to infinite-horizon Dec-POMDPs by using finite state
controller (FSC) policy representations. In this article, we (1) explain how to
turn a Dec-POMDP with $N-1$ fixed FSCs into an infinite-horizon POMDP whose
solution is an $N^\text{th}$ agent best response; (2) propose a JESP variant,
called \infJESP, using this to solve infinite-horizon Dec-POMDPs; (3) introduce
heuristic initializations for JESP aiming at leading to good solutions; and (4)
conduct experiments on state-of-the-art benchmark problems to evaluate our
approach.
- Abstract(参考訳): 本稿では,分散POMDP(Dec-POMDPs)として形式化された協調計画問題の解決をナッシュ均衡(Nash equilibria,すなわち,各エージェントの方針が他エージェントの(固定された)ポリシーに対する最良の対応である状況)を探索することによって検討する。
JESP(Joint Equilibrium-based Search for Policies)アルゴリズムは、ポリシーツリーに依存する有限水平設定でこれを行うが、有限状態コントローラ(FSC)ポリシー表現を用いて無限水平DEC-POMDPに適応することを提案する。
本稿では,(1)$N-1$固定FSCのDec-POMDPを,ソリューションが$N^\text{th}$エージェントベスト応答である無限水平POMDPに変換する方法,(2)無限水平Dc-POMDPの解法として \infJESP と呼ばれる JESP 変種を提案すること,(3) 優れた解を目指す JESP のヒューリスティック初期化を導入すること,(4) アプローチを評価するための最先端ベンチマーク問題の実験を行うこと,について説明する。
関連論文リスト
- Simulation-Based Optimistic Policy Iteration For Multi-Agent MDPs with Kullback-Leibler Control Cost [3.9052860539161918]
本稿では,マルコフ決定過程(MDP)における定常最適ポリシー学習のためのエージェントベース楽観的ポリシー(OPI)手法を提案する。
提案手法は, 強欲政策改善段階とm段階時間差(TD)政策評価段階から構成される。
我々は,OPIスキームの同期(入出力状態空間の評価)と非同期(一様にサンプリングされたサブステートの集合)の両バージョンが,最適値関数と最適共同ポリシーのロールアウトに収束することを示した。
論文 参考訳(メタデータ) (2024-10-19T17:00:23Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Federated Reinforcement Learning with Constraint Heterogeneity [22.79217297480751]
制約不均一性を伴うフェデレーション強化学習(FedRL)問題について検討する。
我々はFedNPGが$tildeO(1/sqrtT)$レートでグローバル収束を実現し、FedPPOはディープニューラルネットワークを用いて複雑な学習タスクを効率的に解決することを示した。
論文 参考訳(メタデータ) (2024-05-06T07:44:50Z) - Policy-Space Search: Equivalences, Improvements, and Compression [5.801044612920816]
完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。
A* with Non-Determinism (AND*)は、FOND計画のためにA*を一般化するFONDプランナーである。
論文 参考訳(メタデータ) (2024-03-28T23:40:20Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Monte-Carlo Search for an Equilibrium in Dec-POMDPs [11.726372393432195]
分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)は、協調エージェントのグループに対する個々のコントローラの問題を形式化する。
ナッシュ均衡(各エージェント政策が、他のエージェントにとって最良の反応)を求めることは、よりアクセスしやすくなっている。
提案手法は,Dec-POMDPの生成モデル(シミュレータ)のみが利用可能である場合に適応可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:47:46Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。
値関数と有限水平マルコフ決定過程の接続を確立する。
論文 参考訳(メタデータ) (2021-11-01T00:21:24Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。