論文の概要: Multi-Agent Advisor Q-Learning
- arxiv url: http://arxiv.org/abs/2111.00345v1
- Date: Tue, 26 Oct 2021 00:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 13:02:49.955299
- Title: Multi-Agent Advisor Q-Learning
- Title(参考訳): マルチエージェントアドバイザーQラーニング
- Authors: Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson, Mark
Crowley
- Abstract要約: マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。
本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。
アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
- 参考スコア(独自算出の注目度): 18.8931184962221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last decade, there have been significant advances in multi-agent
reinforcement learning (MARL) but there are still numerous challenges, such as
high sample complexity and slow convergence to stable policies, that need to be
overcome before wide-spread deployment is possible. However, many real-world
environments already, in practice, deploy sub-optimal or heuristic approaches
for generating policies. An interesting question which arises is how to best
use such approaches as advisors to help improve reinforcement learning in
multi-agent domains. In this paper, we provide a principled framework for
incorporating action recommendations from online sub-optimal advisors in
multi-agent settings. We describe the problem of ADvising Multiple Intelligent
Reinforcement Agents (ADMIRAL) in nonrestrictive general-sum stochastic game
environments and present two novel Q-learning based algorithms: ADMIRAL -
Decision Making (ADMIRAL-DM) and ADMIRAL - Advisor Evaluation (ADMIRAL-AE),
which allow us to improve learning by appropriately incorporating advice from
an advisor (ADMIRAL-DM), and evaluate the effectiveness of an advisor
(ADMIRAL-AE). We analyze the algorithms theoretically and provide fixed-point
guarantees regarding their learning in general-sum stochastic games.
Furthermore, extensive experiments illustrate that these algorithms: can be
used in a variety of environments, have performances that compare favourably to
other related baselines, can scale to large state-action spaces, and are robust
to poor advice from advisors.
- Abstract(参考訳): 過去10年間で、マルチエージェント強化学習(MARL)に大きな進歩があったが、高サンプルの複雑さや安定したポリシーへの緩やかな収束など、広範に展開できる前に克服する必要がある多くの課題がまだ残っている。
しかし、現実の環境の多くは、実際には、ポリシーを生成するための準最適またはヒューリスティックなアプローチを展開している。
興味深い質問は、マルチエージェントドメインでの強化学習を改善するためにアドバイザーのようなアプローチを最大限に活用する方法である。
本稿では,オンラインの準最適アドバイザからのアクションレコメンデーションをマルチエージェント設定に組み込むための原則的フレームワークを提案する。
本稿では,非制限型一般確率ゲーム環境における多元知能強化エージェント(ADMIRAL)の適応問題について述べるとともに,アドバイザ(ADMIRAL-DM)とADMIRAL-AE(ADMIRAL-AE)の2つの新しいQ学習アルゴリズムについて述べる。
アルゴリズムを理論的に解析し、一般確率ゲームにおける学習に関する定点保証を提供する。
さらに、大規模な実験では、これらのアルゴリズムが様々な環境で使用でき、他の関連するベースラインと好適に比較可能なパフォーマンスを持ち、大きなステートアクション空間にスケールでき、アドバイザーのアドバイスが乏しいことを示している。
関連論文リスト
- Mitigating Relative Over-Generalization in Multi-Agent Reinforcement Learning [11.988291170853806]
我々は,潜在的次の状態のサンプリングと評価を反復的に行うMaxMax Q-Learning (MMQ)を紹介した。
このアプローチは理想的な状態遷移の近似を洗練させ、協調エージェントの最適結合ポリシーとより密接に一致させる。
以上の結果から,MMQは既存のベースラインよりも優れており,コンバージェンスと試料効率が向上していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-17T15:00:39Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Learning from Multiple Independent Advisors in Multi-agent Reinforcement
Learning [15.195932300563541]
本稿では,マルチエージェント強化学習において,複数の独立アドバイザから同時に学習することの課題について考察する。
我々は、各州におけるアドバイザーを評価し、その後、アドバイザーを使用して行動選択をガイドすることで、アドバイザーの集合を組み込んだ原則付きアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:00:23Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Transferring Domain Knowledge with an Adviser in Continuous Tasks [0.0]
強化学習技術は、学習プロセスにドメイン固有の知識を明示的に組み込むことができない。
我々は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適用し、アドバイザーを組み込む。
OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
論文 参考訳(メタデータ) (2021-02-16T09:03:33Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。