Fugu-MT 論文翻訳(概要): Solving infinite-horizon Dec-POMDPs using Finite State Controllers within JESP

論文の概要: Solving infinite-horizon Dec-POMDPs using Finite State Controllers within JESP

arxiv url: http://arxiv.org/abs/2109.08755v1
Date: Fri, 17 Sep 2021 20:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-21 16:35:11.482392
Title: Solving infinite-horizon Dec-POMDPs using Finite State Controllers within JESP
Title（参考訳）: JESP内有限状態制御器を用いた無限水平デコポドップの解法
Authors: Yang You, Vincent Thomas, Francis Colas and Olivier Buffet
Abstract要約: 本稿では,分散POMDP (Dec-POMDP) として定式化された協調計画問題の解法について考察する。本稿では,有限状態制御器 (FSC) ポリシー表現を用いて, 無限水平DEC-POMDPに適応することを提案する。
参考スコア（独自算出の注目度）: 12.078803977528617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper looks at solving collaborative planning problems formalized as Decentralized POMDPs (Dec-POMDPs) by searching for Nash equilibria, i.e., situations where each agent's policy is a best response to the other agents' (fixed) policies. While the Joint Equilibrium-based Search for Policies (JESP) algorithm does this in the finite-horizon setting relying on policy trees, we propose here to adapt it to infinite-horizon Dec-POMDPs by using finite state controller (FSC) policy representations. In this article, we (1) explain how to turn a Dec-POMDP with $N-1$ fixed FSCs into an infinite-horizon POMDP whose solution is an $N^\text{th}$ agent best response; (2) propose a JESP variant, called \infJESP, using this to solve infinite-horizon Dec-POMDPs; (3) introduce heuristic initializations for JESP aiming at leading to good solutions; and (4) conduct experiments on state-of-the-art benchmark problems to evaluate our approach.
Abstract（参考訳）: 本稿では,分散POMDP(Dec-POMDPs)として形式化された協調計画問題の解決をナッシュ均衡(Nash equilibria,すなわち,各エージェントの方針が他エージェントの(固定された)ポリシーに対する最良の対応である状況)を探索することによって検討する。 JESP(Joint Equilibrium-based Search for Policies)アルゴリズムは、ポリシーツリーに依存する有限水平設定でこれを行うが、有限状態コントローラ(FSC)ポリシー表現を用いて無限水平DEC-POMDPに適応することを提案する。本稿では,(1)$N-1$固定FSCのDec-POMDPを,ソリューションが$N^\text{th}$エージェントベスト応答である無限水平POMDPに変換する方法,(2)無限水平Dc-POMDPの解法として \infJESP と呼ばれる JESP 変種を提案すること,(3) 優れた解を目指す JESP のヒューリスティック初期化を導入すること,(4) アプローチを評価するための最先端ベンチマーク問題の実験を行うこと,について説明する。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Simulation-Based Optimistic Policy Iteration For Multi-Agent MDPs with Kullback-Leibler Control Cost [3.9052860539161918]
本稿では,マルコフ決定過程(MDP)における定常最適ポリシー学習のためのエージェントベース楽観的ポリシー(OPI)手法を提案する。提案手法は, 強欲政策改善段階とm段階時間差(TD)政策評価段階から構成される。我々は,OPIスキームの同期(入出力状態空間の評価)と非同期(一様にサンプリングされたサブステートの集合)の両バージョンが,最適値関数と最適共同ポリシーのロールアウトに収束することを示した。
論文参考訳（メタデータ） (2024-10-19T17:00:23Z)
Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action [10.219627570276689]
我々は、一般的な状態と空間を持つマルコフ決定過程のクラスのためのフレームワークを開発する。勾配法は非漸近条件で大域的最適ポリシーに収束することを示す。その結果,多周期インベントリシステムにおける最初の複雑性が確立された。
論文参考訳（メタデータ） (2024-09-25T17:56:02Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Federated Reinforcement Learning with Constraint Heterogeneity [22.79217297480751]
制約不均一性を伴うフェデレーション強化学習(FedRL)問題について検討する。我々はFedNPGが$tildeO(1/sqrtT)$レートでグローバル収束を実現し、FedPPOはディープニューラルネットワークを用いて複雑な学習タスクを効率的に解決することを示した。
論文参考訳（メタデータ） (2024-05-06T07:44:50Z)
Policy-Space Search: Equivalences, Improvements, and Compression [5.801044612920816]
完全な観測不可能な非決定論的計画(FOND)は、不確実性を伴う人工知能計画の中核にある。 A* with Non-Determinism (AND*)は、FOND計画のためにA*を一般化するFONDプランナーである。
論文参考訳（メタデータ） (2024-03-28T23:40:20Z)
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文参考訳（メタデータ） (2024-03-11T15:25:03Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Monte-Carlo Search for an Equilibrium in Dec-POMDPs [11.726372393432195]
分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)は、協調エージェントのグループに対する個々のコントローラの問題を形式化する。ナッシュ均衡(各エージェント政策が、他のエージェントにとって最良の反応)を求めることは、よりアクセスしやすくなっている。提案手法は,Dec-POMDPの生成モデル(シミュレータ)のみが利用可能である場合に適応可能であることを示す。
論文参考訳（メタデータ） (2023-05-19T16:47:46Z)
A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文参考訳（メタデータ） (2023-05-14T03:12:53Z)
Settling the Horizon-Dependence of Sample Complexity in Reinforcement Learning [82.31436758872715]
我々は,環境相互作用の$O(1)$のエピソードのみを用いて,同一のPAC保証を実現するアルゴリズムを開発した。値関数と有限水平マルコフ決定過程の接続を確立する。
論文参考訳（メタデータ） (2021-11-01T00:21:24Z)
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文参考訳（メタデータ） (2020-11-11T16:05:14Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。