論文の概要: Learning from Multiple Independent Advisors in Multi-agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2301.11153v1
- Date: Thu, 26 Jan 2023 15:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 13:24:42.971657
- Title: Learning from Multiple Independent Advisors in Multi-agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習における複数の独立アドバイザからの学習
- Authors: Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson and Mark
Crowley
- Abstract要約: 本稿では,マルチエージェント強化学習において,複数の独立アドバイザから同時に学習することの課題について考察する。
我々は、各州におけるアドバイザーを評価し、その後、アドバイザーを使用して行動選択をガイドすることで、アドバイザーの集合を組み込んだ原則付きアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 15.195932300563541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning typically suffers from the problem of
sample inefficiency, where learning suitable policies involves the use of many
data samples. Learning from external demonstrators is a possible solution that
mitigates this problem. However, most prior approaches in this area assume the
presence of a single demonstrator. Leveraging multiple knowledge sources (i.e.,
advisors) with expertise in distinct aspects of the environment could
substantially speed up learning in complex environments. This paper considers
the problem of simultaneously learning from multiple independent advisors in
multi-agent reinforcement learning. The approach leverages a two-level
Q-learning architecture, and extends this framework from single-agent to
multi-agent settings. We provide principled algorithms that incorporate a set
of advisors by both evaluating the advisors at each state and subsequently
using the advisors to guide action selection. We also provide theoretical
convergence and sample complexity guarantees. Experimentally, we validate our
approach in three different test-beds and show that our algorithms give better
performances than baselines, can effectively integrate the combined expertise
of different advisors, and learn to ignore bad advice.
- Abstract(参考訳): マルチエージェント強化学習は通常、サンプルの非効率性の問題に悩まされる。
外部のデモンストレータから学ぶことは、この問題を緩和する可能性のある解決策である。
しかし、この領域の最も古いアプローチは、単一のデモレーターの存在を前提としている。
複数の知識ソース(アドバイザ)を環境の異なる側面で専門知識で活用することで、複雑な環境における学習を大幅に高速化することができる。
本稿では,マルチエージェント強化学習において,複数のアドバイザから同時に学習する問題を考える。
このアプローチは2レベルqラーニングアーキテクチャを活用し、このフレームワークをシングルエージェントからマルチエージェント設定に拡張する。
各州のアドバイザーを評価し、その後にアドバイザを使用してアクション選択を導くことによって、アドバイザのセットを組み込んだ原則付きアルゴリズムを提供する。
理論的な収束とサンプル複雑性の保証も提供する。
実験では、3つの異なるテストベッドでアプローチを検証し、我々のアルゴリズムがベースラインよりも優れたパフォーマンスを提供し、異なるアドバイザーの専門知識を効果的に統合し、悪いアドバイスを無視することを学びます。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Two-stage Learning-to-Defer for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクの両方を包含するマルチタスク学習のためのLearning-to-Deferアプローチを提案する。
我々の2段階のアプローチでは、事前訓練された共同回帰モデルと1つ以上の外部の専門家のうち、最も正確なエージェントに決定を下すリジェクターを使用します。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - MADDM: Multi-Advisor Dynamic Binary Decision-Making by Maximizing the
Utility [8.212621730577897]
逐次二元決定設定において,助言者の集合を最適に選択するための新しい戦略を提案する。
我々は、根拠となる真実にアクセスできず、助言者の信頼性に関する事前の知識もないと仮定する。
論文 参考訳(メタデータ) (2023-05-15T14:13:47Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Investigation of Independent Reinforcement Learning Algorithms in
Multi-Agent Environments [0.9281671380673306]
独立アルゴリズムは協調的・競合的な環境下で,マルチエージェントアルゴリズムと同等に動作可能であることを示す。
また, 協調的部分観測可能な環境下での独立アルゴリズムの学習において, 再帰が促進されることが示唆された。
論文 参考訳(メタデータ) (2021-11-01T17:14:38Z) - Multi-Agent Advisor Q-Learning [18.8931184962221]
マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。
本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。
アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
論文 参考訳(メタデータ) (2021-10-26T00:21:15Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning [11.292086312664383]
提案アルゴリズムはSEAC (Shared Experience Actor-Critic) と呼ばれ,アクター・クリティカル・フレームワークに経験共有を適用した。
スパース・リワード型マルチエージェント環境におけるSEACの評価を行い、2つのベースラインと2つの最先端アルゴリズムを一貫して上回っていることを確認した。
論文 参考訳(メタデータ) (2020-06-12T13:24:50Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。