Fugu-MT 論文翻訳(概要): Multi-Agent Advisor Q-Learning

論文の概要: Multi-Agent Advisor Q-Learning

arxiv url: http://arxiv.org/abs/2111.00345v1
Date: Tue, 26 Oct 2021 00:21:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-07 13:02:49.955299
Title: Multi-Agent Advisor Q-Learning
Title（参考訳）: マルチエージェントアドバイザーQラーニング
Authors: Sriram Ganapathi Subramanian, Matthew E. Taylor, Kate Larson, Mark Crowley
Abstract要約: マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
参考スコア（独自算出の注目度）: 18.8931184962221
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the last decade, there have been significant advances in multi-agent reinforcement learning (MARL) but there are still numerous challenges, such as high sample complexity and slow convergence to stable policies, that need to be overcome before wide-spread deployment is possible. However, many real-world environments already, in practice, deploy sub-optimal or heuristic approaches for generating policies. An interesting question which arises is how to best use such approaches as advisors to help improve reinforcement learning in multi-agent domains. In this paper, we provide a principled framework for incorporating action recommendations from online sub-optimal advisors in multi-agent settings. We describe the problem of ADvising Multiple Intelligent Reinforcement Agents (ADMIRAL) in nonrestrictive general-sum stochastic game environments and present two novel Q-learning based algorithms: ADMIRAL - Decision Making (ADMIRAL-DM) and ADMIRAL - Advisor Evaluation (ADMIRAL-AE), which allow us to improve learning by appropriately incorporating advice from an advisor (ADMIRAL-DM), and evaluate the effectiveness of an advisor (ADMIRAL-AE). We analyze the algorithms theoretically and provide fixed-point guarantees regarding their learning in general-sum stochastic games. Furthermore, extensive experiments illustrate that these algorithms: can be used in a variety of environments, have performances that compare favourably to other related baselines, can scale to large state-action spaces, and are robust to poor advice from advisors.
Abstract（参考訳）: 過去10年間で、マルチエージェント強化学習(MARL)に大きな進歩があったが、高サンプルの複雑さや安定したポリシーへの緩やかな収束など、広範に展開できる前に克服する必要がある多くの課題がまだ残っている。しかし、現実の環境の多くは、実際には、ポリシーを生成するための準最適またはヒューリスティックなアプローチを展開している。興味深い質問は、マルチエージェントドメインでの強化学習を改善するためにアドバイザーのようなアプローチを最大限に活用する方法である。本稿では,オンラインの準最適アドバイザからのアクションレコメンデーションをマルチエージェント設定に組み込むための原則的フレームワークを提案する。本稿では,非制限型一般確率ゲーム環境における多元知能強化エージェント(ADMIRAL)の適応問題について述べるとともに,アドバイザ(ADMIRAL-DM)とADMIRAL-AE(ADMIRAL-AE)の2つの新しいQ学習アルゴリズムについて述べる。アルゴリズムを理論的に解析し、一般確率ゲームにおける学習に関する定点保証を提供する。さらに、大規模な実験では、これらのアルゴリズムが様々な環境で使用でき、他の関連するベースラインと好適に比較可能なパフォーマンスを持ち、大きなステートアクション空間にスケールでき、アドバイザーのアドバイスが乏しいことを示している。

関連論文リスト

MSDA: Combining Pseudo-labeling and Self-Supervision for Unsupervised Domain Adaptation in ASR [59.83547898874152]
本稿では,自己教師付き学習と半教師付き技術を統合する,サンプル効率のよい2段階適応手法を提案する。 MSDAは、ASRモデルの堅牢性と一般化を強化するように設計されている。本稿では,メタPLがASRタスクに効果的に適用可能であることを示す。
論文参考訳（メタデータ） (2025-05-30T14:46:05Z)
Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models [75.4890331763196]
大規模言語モデル(LLM)の最近のブレークスルーは、エージェントAIシステムの出現につながっている。 LLMベースのAgentic RS(LLM-ARS)は、よりインタラクティブで、コンテキストを認識し、プロアクティブなレコメンデーションを提供する。
論文参考訳（メタデータ） (2025-03-20T22:37:15Z)
Mitigating Relative Over-Generalization in Multi-Agent Reinforcement Learning [11.988291170853806]
我々は,潜在的次の状態のサンプリングと評価を反復的に行うMaxMax Q-Learning (MMQ)を紹介した。このアプローチは理想的な状態遷移の近似を洗練させ、協調エージェントの最適結合ポリシーとより密接に一致させる。以上の結果から,MMQは既存のベースラインよりも優れており,コンバージェンスと試料効率が向上していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-17T15:00:39Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文参考訳（メタデータ） (2024-07-20T16:37:21Z)
Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。 STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文参考訳（メタデータ） (2024-06-19T07:17:04Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
Learning from Multiple Independent Advisors in Multi-agent Reinforcement Learning [15.195932300563541]
本稿では,マルチエージェント強化学習において,複数の独立アドバイザから同時に学習することの課題について考察する。我々は、各州におけるアドバイザーを評価し、その後、アドバイザーを使用して行動選択をガイドすることで、アドバイザーの集合を組み込んだ原則付きアルゴリズムを提供する。
論文参考訳（メタデータ） (2023-01-26T15:00:23Z)
Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文参考訳（メタデータ） (2022-06-15T13:03:05Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Transferring Domain Knowledge with an Adviser in Continuous Tasks [0.0]
強化学習技術は、学習プロセスにドメイン固有の知識を明示的に組み込むことができない。我々は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適用し、アドバイザーを組み込む。 OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
論文参考訳（メタデータ） (2021-02-16T09:03:33Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。