論文の概要: Multi-Agent Advisor Q-Learning
- arxiv url: http://arxiv.org/abs/2111.00345v1
- Date: Tue, 26 Oct 2021 00:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 13:02:49.955299
- Title: Multi-Agent Advisor Q-Learning
- Title(参考訳): マルチエージェントアドバイザーQラーニング
- Authors: Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson, Mark
Crowley
- Abstract要約: マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。
本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。
アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
- 参考スコア(独自算出の注目度): 18.8931184962221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last decade, there have been significant advances in multi-agent
reinforcement learning (MARL) but there are still numerous challenges, such as
high sample complexity and slow convergence to stable policies, that need to be
overcome before wide-spread deployment is possible. However, many real-world
environments already, in practice, deploy sub-optimal or heuristic approaches
for generating policies. An interesting question which arises is how to best
use such approaches as advisors to help improve reinforcement learning in
multi-agent domains. In this paper, we provide a principled framework for
incorporating action recommendations from online sub-optimal advisors in
multi-agent settings. We describe the problem of ADvising Multiple Intelligent
Reinforcement Agents (ADMIRAL) in nonrestrictive general-sum stochastic game
environments and present two novel Q-learning based algorithms: ADMIRAL -
Decision Making (ADMIRAL-DM) and ADMIRAL - Advisor Evaluation (ADMIRAL-AE),
which allow us to improve learning by appropriately incorporating advice from
an advisor (ADMIRAL-DM), and evaluate the effectiveness of an advisor
(ADMIRAL-AE). We analyze the algorithms theoretically and provide fixed-point
guarantees regarding their learning in general-sum stochastic games.
Furthermore, extensive experiments illustrate that these algorithms: can be
used in a variety of environments, have performances that compare favourably to
other related baselines, can scale to large state-action spaces, and are robust
to poor advice from advisors.
- Abstract(参考訳): 過去10年間で、マルチエージェント強化学習(MARL)に大きな進歩があったが、高サンプルの複雑さや安定したポリシーへの緩やかな収束など、広範に展開できる前に克服する必要がある多くの課題がまだ残っている。
しかし、現実の環境の多くは、実際には、ポリシーを生成するための準最適またはヒューリスティックなアプローチを展開している。
興味深い質問は、マルチエージェントドメインでの強化学習を改善するためにアドバイザーのようなアプローチを最大限に活用する方法である。
本稿では,オンラインの準最適アドバイザからのアクションレコメンデーションをマルチエージェント設定に組み込むための原則的フレームワークを提案する。
本稿では,非制限型一般確率ゲーム環境における多元知能強化エージェント(ADMIRAL)の適応問題について述べるとともに,アドバイザ(ADMIRAL-DM)とADMIRAL-AE(ADMIRAL-AE)の2つの新しいQ学習アルゴリズムについて述べる。
アルゴリズムを理論的に解析し、一般確率ゲームにおける学習に関する定点保証を提供する。
さらに、大規模な実験では、これらのアルゴリズムが様々な環境で使用でき、他の関連するベースラインと好適に比較可能なパフォーマンスを持ち、大きなステートアクション空間にスケールでき、アドバイザーのアドバイスが乏しいことを示している。
関連論文リスト
- Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - On Diagnostics for Understanding Agent Training Behaviour in Cooperative
MARL [5.124364759305485]
我々は、経験的リターンのみに依存することは、エージェントの振る舞いに不明瞭な重要な洞察を与えるかもしれないと論じる。
本稿では,エージェントの動作に対する深い洞察を得るために,説明可能なAI(XAI)ツールの適用について検討する。
論文 参考訳(メタデータ) (2023-12-13T19:10:10Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Learning from Multiple Independent Advisors in Multi-agent Reinforcement
Learning [15.195932300563541]
本稿では,マルチエージェント強化学習において,複数の独立アドバイザから同時に学習することの課題について考察する。
我々は、各州におけるアドバイザーを評価し、その後、アドバイザーを使用して行動選択をガイドすることで、アドバイザーの集合を組み込んだ原則付きアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:00:23Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Transferring Domain Knowledge with an Adviser in Continuous Tasks [0.0]
強化学習技術は、学習プロセスにドメイン固有の知識を明示的に組み込むことができない。
我々は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適用し、アドバイザーを組み込む。
OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
論文 参考訳(メタデータ) (2021-02-16T09:03:33Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。