論文の概要: Monte-Carlo Search for an Equilibrium in Dec-POMDPs
- arxiv url: http://arxiv.org/abs/2305.11811v1
- Date: Fri, 19 May 2023 16:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:20:08.900172
- Title: Monte-Carlo Search for an Equilibrium in Dec-POMDPs
- Title(参考訳): dec-pomdpsにおけるモンテカルロ平衡探索
- Authors: Yang You, Vincent Thomas, Francis Colas, Olivier Buffet
- Abstract要約: 分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)は、協調エージェントのグループに対する個々のコントローラの問題を形式化する。
ナッシュ均衡(各エージェント政策が、他のエージェントにとって最良の反応)を求めることは、よりアクセスしやすくなっている。
提案手法は,Dec-POMDPの生成モデル(シミュレータ)のみが利用可能である場合に適応可能であることを示す。
- 参考スコア(独自算出の注目度): 11.726372393432195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized partially observable Markov decision processes (Dec-POMDPs)
formalize the problem of designing individual controllers for a group of
collaborative agents under stochastic dynamics and partial observability.
Seeking a global optimum is difficult (NEXP complete), but seeking a Nash
equilibrium -- each agent policy being a best response to the other agents --
is more accessible, and allowed addressing infinite-horizon problems with
solutions in the form of finite state controllers. In this paper, we show that
this approach can be adapted to cases where only a generative model (a
simulator) of the Dec-POMDP is available. This requires relying on a
simulation-based POMDP solver to construct an agent's FSC node by node. A
related process is used to heuristically derive initial FSCs. Experiment with
benchmarks shows that MC-JESP is competitive with exisiting Dec-POMDP solvers,
even better than many offline methods using explicit models.
- Abstract(参考訳): 分散化された部分観測可能マルコフ決定プロセス(Dec-POMDPs)は、確率力学と部分観測可能性の下で協調エージェントのグループの個々のコントローラを設計する問題を定式化する。
グローバルな最適性を求めることは難しい(NEXP 完全)が、ナッシュ均衡(英語版)を求めると、それぞれのエージェントポリシーが他のエージェントに最適な反応となる)はよりアクセスしやすく、有限状態コントローラの形での解による無限水平問題に対処することができる。
本稿では,dec-pomdpの生成モデル(シミュレータ)のみが利用可能である場合に適用可能であることを示す。
これは、エージェントのFSCノードをノード単位で構築するために、シミュレーションベースのPOMDPソルバに頼る必要がある。
関連するプロセスは、ヒューリスティックに初期fscを導出するために使用される。
ベンチマークによる実験によると、MC-JESPは、明示的なモデルを用いた多くのオフラインメソッドよりも、Dec-POMDPソルバの排除と競合している。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - POMDP inference and robust solution via deep reinforcement learning: An
application to railway optimal maintenance [0.7046417074932257]
深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。
まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。
パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
論文 参考訳(メタデータ) (2023-07-16T15:44:58Z) - Learning Decentralized Partially Observable Mean Field Control for
Artificial Collective Behavior [28.313779052437134]
分散部分観測可能なMFC(Dec-POMFC)の新しいモデルを提案する。
動的プログラミング原理を含む厳密な理論結果を提供する。
全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。
論文 参考訳(メタデータ) (2023-07-12T14:02:03Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - A multilevel reinforcement learning framework for PDE based control [0.2538209532048867]
強化学習(RL)は制御問題を解くための有望な方法である。
モデルフリーなRLアルゴリズムは、サンプル非効率であり、最適な制御ポリシーを学ぶために、数百万のサンプルを必要としない何千ものサンプルを必要とする。
本稿では,粗いスケールの離散化に対応するサブレベルモデルを活用することで,コストの低減を図るため,マルチレベルRLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T23:52:48Z) - Centralized Model and Exploration Policy for Multi-Agent RL [13.661446184763117]
部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。
Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。
モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
論文 参考訳(メタデータ) (2021-07-14T00:34:08Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。