論文の概要: Solving infinite-horizon Dec-POMDPs using Finite State Controllers
within JESP
- arxiv url: http://arxiv.org/abs/2109.08755v1
- Date: Fri, 17 Sep 2021 20:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:35:11.482392
- Title: Solving infinite-horizon Dec-POMDPs using Finite State Controllers
within JESP
- Title(参考訳): JESP内有限状態制御器を用いた無限水平デコポドップの解法
- Authors: Yang You, Vincent Thomas, Francis Colas and Olivier Buffet
- Abstract要約: 本稿では,分散POMDP (Dec-POMDP) として定式化された協調計画問題の解法について考察する。
本稿では,有限状態制御器 (FSC) ポリシー表現を用いて, 無限水平DEC-POMDPに適応することを提案する。
- 参考スコア(独自算出の注目度): 12.078803977528617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper looks at solving collaborative planning problems formalized as
Decentralized POMDPs (Dec-POMDPs) by searching for Nash equilibria, i.e.,
situations where each agent's policy is a best response to the other agents'
(fixed) policies. While the Joint Equilibrium-based Search for Policies (JESP)
algorithm does this in the finite-horizon setting relying on policy trees, we
propose here to adapt it to infinite-horizon Dec-POMDPs by using finite state
controller (FSC) policy representations. In this article, we (1) explain how to
turn a Dec-POMDP with $N-1$ fixed FSCs into an infinite-horizon POMDP whose
solution is an $N^\text{th}$ agent best response; (2) propose a JESP variant,
called \infJESP, using this to solve infinite-horizon Dec-POMDPs; (3) introduce
heuristic initializations for JESP aiming at leading to good solutions; and (4)
conduct experiments on state-of-the-art benchmark problems to evaluate our
approach.
- Abstract(参考訳): 本稿では,分散POMDP(Dec-POMDPs)として形式化された協調計画問題の解決をナッシュ均衡(Nash equilibria,すなわち,各エージェントの方針が他エージェントの(固定された)ポリシーに対する最良の対応である状況)を探索することによって検討する。
JESP(Joint Equilibrium-based Search for Policies)アルゴリズムは、ポリシーツリーに依存する有限水平設定でこれを行うが、有限状態コントローラ(FSC)ポリシー表現を用いて無限水平DEC-POMDPに適応することを提案する。
本稿では,(1)$N-1$固定FSCのDec-POMDPを,ソリューションが$N^\text{th}$エージェントベスト応答である無限水平POMDPに変換する方法,(2)無限水平Dc-POMDPの解法として \infJESP と呼ばれる JESP 変種を提案すること,(3) 優れた解を目指す JESP のヒューリスティック初期化を導入すること,(4) アプローチを評価するための最先端ベンチマーク問題の実験を行うこと,について説明する。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Learning General Parameterized Policies for Infinite Horizon Average
Reward Constrained MDPs via Primal-Dual Policy Gradient Algorithm [38.879933964474326]
本稿では, 制約を適切に管理し, グローバルな最適政策の実現に向けて, 後悔の少ない保証を確実にする主元的二元的ポリシー勾配アルゴリズムを提案する。
具体的には,提案アルゴリズムが目的的後悔と制約違反境界を$tildemathcalO(T4/5)$で達成できることを実証する。
論文 参考訳(メタデータ) (2024-02-03T05:35:58Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Monte-Carlo Search for an Equilibrium in Dec-POMDPs [11.726372393432195]
分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)は、協調エージェントのグループに対する個々のコントローラの問題を形式化する。
ナッシュ均衡(各エージェント政策が、他のエージェントにとって最良の反応)を求めることは、よりアクセスしやすくなっている。
提案手法は,Dec-POMDPの生成モデル(シミュレータ)のみが利用可能である場合に適応可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:47:46Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Solving the Traveling Salesperson Problem with Precedence Constraints by
Deep Reinforcement Learning [59.14935871979047]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。
これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文 参考訳(メタデータ) (2022-07-04T14:31:47Z) - Settling the Horizon-Dependence of Sample Complexity in Reinforcement
Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。
値関数と有限水平マルコフ決定過程の接続を確立する。
論文 参考訳(メタデータ) (2021-11-01T00:21:24Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Projection-Based Constrained Policy Optimization [34.555500347840805]
我々は,PCPO (Projection-based Constrained Policy Optimization) という新しいアルゴリズムを提案する。
PCPOは、最先端の手法に比べて3.5倍以上の制約違反と約15%の報酬を達成している。
論文 参考訳(メタデータ) (2020-10-07T04:22:45Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。