論文の概要: Logical Team Q-learning: An approach towards factored policies in
cooperative MARL
- arxiv url: http://arxiv.org/abs/2006.03553v2
- Date: Sun, 28 Mar 2021 19:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:42:09.779846
- Title: Logical Team Q-learning: An approach towards factored policies in
cooperative MARL
- Title(参考訳): 論理チームq-learning:協調的marlにおける因子政策へのアプローチ
- Authors: Lucas Cassano and Ali H. Sayed
- Abstract要約: 我々は,協調的なMARLシナリオにおける要因付き政策の学習の課題に対処する。
目的は、各エージェントの個人行動を決定する因子付きポリシーを取得し、その結果の合同ポリシーが最適になるようにすることである。
主な貢献は、Logical Team Q-learning (LTQL)の導入である。
- 参考スコア(独自算出の注目度): 49.08389593076099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of learning factored policies in cooperative MARL
scenarios. In particular, we consider the situation in which a team of agents
collaborates to optimize a common cost. The goal is to obtain factored policies
that determine the individual behavior of each agent so that the resulting
joint policy is optimal. The main contribution of this work is the introduction
of Logical Team Q-learning (LTQL). LTQL does not rely on assumptions about the
environment and hence is generally applicable to any collaborative MARL
scenario. We derive LTQL as a stochastic approximation to a dynamic programming
method we introduce in this work. We conclude the paper by providing
experiments (both in the tabular and deep settings) that illustrate the claims.
- Abstract(参考訳): 我々は,協調的marlシナリオにおける因子政策の学習の課題に対処した。
特に、エージェントのチームが協力して共通のコストを最適化する状況を考察する。
目標は、それぞれのエージェントの個々の行動を決定する要因付きポリシーを得ることであり、結果として得られる共同ポリシーが最適である。
この研究の主な貢献は、Logical Team Q-learning(LTQL)の導入である。
LTQLは環境に関する仮定に依存しないので、一般的なMARLシナリオに適用される。
本研究で導入した動的プログラミング手法の確率近似としてLTQLを導出する。
論文の結論は,その主張を説明する実験(表と深い設定の両方)を提供することである。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。