論文の概要: Factored Online Planning in Many-Agent POMDPs
- arxiv url: http://arxiv.org/abs/2312.11434v2
- Date: Fri, 22 Dec 2023 15:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:48:01.688113
- Title: Factored Online Planning in Many-Agent POMDPs
- Title(参考訳): 多エージェントpomdpにおけるファクタド・オンライン・プランニング
- Authors: Maris F.L. Galesloot, Thiago D. Sim\~ao, Sebastian Junges, Nils Jansen
- Abstract要約: 集中型マルチエージェントシステムでは、アクションと観測空間はエージェントの数とともに指数関数的に増加する。
我々はMPOMDPのためのサンプルベースオンラインプランナに重み付き粒子フィルタリングを導入する。
第三に、我々はその信念をスケーラブルに近似する。
- 参考スコア(独自算出の注目度): 8.728372851272727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In centralized multi-agent systems, often modeled as multi-agent partially
observable Markov decision processes (MPOMDPs), the action and observation
spaces grow exponentially with the number of agents, making the value and
belief estimation of single-agent online planning ineffective. Prior work
partially tackles value estimation by exploiting the inherent structure of
multi-agent settings via so-called coordination graphs. Additionally, belief
estimation has been improved by incorporating the likelihood of observations
into the approximation. However, the challenges of value estimation and belief
estimation have only been tackled individually, which prevents existing methods
from scaling to many agents. Therefore, we address these challenges
simultaneously. First, we introduce weighted particle filtering to a
sample-based online planner for MPOMDPs. Second, we present a scalable
approximation of the belief. Third, we bring an approach that exploits the
typical locality of agent interactions to novel online planning algorithms for
MPOMDPs operating on a so-called sparse particle filter tree. Our experimental
evaluation against several state-of-the-art baselines shows that our methods
(1) are competitive in settings with only a few agents and (2) improve over the
baselines in the presence of many agents.
- Abstract(参考訳): 集中型マルチエージェントシステムでは、しばしばマルチエージェント部分観測可能なマルコフ決定プロセス (MPOMDPs) としてモデル化され、アクションと観測空間はエージェントの数とともに指数関数的に増加し、単一エージェントのオンライン計画の価値と信念を効果的に見積もる。
事前作業は、いわゆるコーディネーショングラフを通じて、マルチエージェント設定の固有の構造を利用して、部分的に価値見積もりに取り組む。
さらに、近似に観測の可能性が組み込まれ、信念の推定が向上した。
しかし、価値推定と信念推定の課題は個別にのみ取り組まれており、既存の手法が多くのエージェントへのスケーリングを妨げている。
したがって、これらの課題を同時に解決する。
まず,MPOMDPのサンプルベースオンラインプランナに重み付き粒子フィルタリングを導入する。
第二に、我々はその信念をスケーラブルに近似する。
第3に, エージェントインタラクションの典型的な局所性を活用した手法を, スパース粒子フィルタツリー上で動作させるmpomdpsの新しいオンライン計画アルゴリズムに適用する。
いくつかの最先端のベースラインに対する実験的な評価は、(1)手法が少数のエージェントと競合し、(2)多数のエージェントが存在する場合のベースラインよりも改善されていることを示している。
関連論文リスト
- Counterfactual Conservative Q Learning for Offline Multi-agent
Reinforcement Learning [54.788422270960496]
我々はCounterFactual conservative Q-Learning (CFCQL) という新しいマルチエージェントオフラインRLアルゴリズムを提案する。
CFCQLは、各エージェントの保守的正規化を非現実的に別々に計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。
単一エージェントの保守的手法のように, まだ過小評価特性と性能保証を享受していることが証明されているが, 誘導正規化と安全な政策改善境界はエージェント番号とは無関係である。
論文 参考訳(メタデータ) (2023-09-22T08:10:25Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。