論文の概要: Efficient Planning in Combinatorial Action Spaces with Applications to
Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.04376v1
- Date: Wed, 8 Feb 2023 23:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 17:16:43.758272
- Title: Efficient Planning in Combinatorial Action Spaces with Applications to
Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 複合行動空間における効率的な計画と協調型マルチエージェント強化学習への応用
- Authors: Volodymyr Tkachuk, Seyed Alireza Bakhtiari, Johannes Kirschner, Matej
Jusup, Ilija Bogunovic, Csaba Szepesv\'ari
- Abstract要約: 協調型マルチエージェント強化学習では、多数のエージェントが共同でグローバル報酬関数を最適化し、エージェントの数によってアクション空間が爆発する。
最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。
そこで本研究では,全ての問題パラメータの計算と問合せを複雑化するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 16.844525262228103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A practical challenge in reinforcement learning are combinatorial action
spaces that make planning computationally demanding. For example, in
cooperative multi-agent reinforcement learning, a potentially large number of
agents jointly optimize a global reward function, which leads to a
combinatorial blow-up in the action space by the number of agents. As a minimal
requirement, we assume access to an argmax oracle that allows to efficiently
compute the greedy policy for any Q-function in the model class. Building on
recent work in planning with local access to a simulator and linear function
approximation, we propose efficient algorithms for this setting that lead to
polynomial compute and query complexity in all relevant problem parameters. For
the special case where the feature decomposition is additive, we further
improve the bounds and extend the results to the kernelized setting with an
efficient algorithm.
- Abstract(参考訳): 強化学習における実践的な課題は、計算的な要求を計画する組合せ行動空間である。
例えば、協調的マルチエージェント強化学習では、潜在的に多くのエージェントがグローバルな報酬関数を共同で最適化し、エージェントの数によるアクション空間の組合せ的爆発を引き起こす。
最小限の要件として、モデルクラスの任意のQ-関数に対する欲求ポリシーを効率的に計算できるargmaxオラクルへのアクセスを仮定する。
シミュレータへの局所アクセスと線形関数近似を用いた最近の計画作業に基づき,すべての問題パラメータにおける多項式計算とクエリの複雑性をもたらす効率的なアルゴリズムを提案する。
特徴分解が付加される特別な場合については、境界をさらに改善し、効率的なアルゴリズムを用いてカーネル化設定に結果を拡張する。
関連論文リスト
- PARCO: Learning Parallel Autoregressive Policies for Efficient Multi-Agent Combinatorial Optimization [17.392822956504848]
本稿では,強化学習におけるマルチエージェント問題に対する高速サロゲート解法であるPARCOを紹介する。
優先度に基づく競合処理方式によって強化された,複数の決定を異なるエージェントで同時に復号化するための多重ポインタ機構を持つモデルを提案する。
論文 参考訳(メタデータ) (2024-09-05T17:49:18Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Reinforcement Learning with Combinatorial Actions: An Application to
Vehicle Routing [9.995347522610674]
我々は,強化行動空間を用いた価値関数に基づく深層強化学習の枠組みを開発する。
キャパシタン化車両ルーティング問題(CVRP)に対するこの枠組みの適用について述べる。
それぞれの事例において、アクションを単一ルートの構築としてモデル化し、単純なポリシーアルゴリズムによって改善される決定論的ポリシーを考える。
論文 参考訳(メタデータ) (2020-10-22T19:32:21Z) - Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer [71.44215606325005]
本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。
すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - A Novel Multi-Agent System for Complex Scheduling Problems [2.294014185517203]
本稿では,様々な問題領域に適用可能なマルチエージェントシステムの概念と実装について述べる。
提案手法の有効性を示すため,NP-hardスケジューリング問題をシミュレートする。
本稿では,レイアウトの複雑さの低減,複雑なシステムの制御の改善,拡張性など,エージェントベースのアプローチの利点を強調した。
論文 参考訳(メタデータ) (2020-04-20T14:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。