論文の概要: Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization
- arxiv url: http://arxiv.org/abs/2310.07218v1
- Date: Wed, 11 Oct 2023 06:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:16:40.325131
- Title: Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization
- Title(参考訳): コスト効率一般化のためのマルチエージェント強化学習におけるエージェント相互作用の定量化
- Authors: Yuxin Chen, Chen Tang, Ran Tian, Chenran Li, Jinning Li, Masayoshi
Tomizuka, Wei Zhan
- Abstract要約: マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
- 参考スコア(独自算出の注目度): 63.554226552130054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization poses a significant challenge in Multi-agent Reinforcement
Learning (MARL). The extent to which an agent is influenced by unseen
co-players depends on the agent's policy and the specific scenario. A
quantitative examination of this relationship sheds light on effectively
training agents for diverse scenarios. In this study, we present the Level of
Influence (LoI), a metric quantifying the interaction intensity among agents
within a given scenario and environment. We observe that, generally, a more
diverse set of co-play agents during training enhances the generalization
performance of the ego agent; however, this improvement varies across distinct
scenarios and environments. LoI proves effective in predicting these
improvement disparities within specific scenarios. Furthermore, we introduce a
LoI-guided resource allocation method tailored to train a set of policies for
diverse scenarios under a constrained budget. Our results demonstrate that
strategic resource allocation based on LoI can achieve higher performance than
uniform allocation under the same computation budget.
- Abstract(参考訳): 一般化はマルチエージェント強化学習(MARL)において大きな課題となる。
エージェントが目に見えない共同プレイヤーによって影響を受ける程度は、エージェントのポリシーと特定のシナリオに依存する。
この関係の定量的な検証は、様々なシナリオの効果的なトレーニングエージェントに光を当てている。
本研究では,与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標である影響レベル(loi)について述べる。
トレーニング中、より多様なコプレイエージェントがエゴエージェントの一般化性能を高めることが観察されるが、この改善は異なるシナリオや環境によって異なる。
LoIは、特定のシナリオにおけるこれらの改善の相違を予測するのに効果的である。
さらに,制約予算下での多様なシナリオに対するポリシーセットのトレーニングに適したLoI誘導型リソース割り当て手法を提案する。
その結果,loiに基づく戦略的資源割当は,同じ計算予算で一様割当よりも高い性能が得られることがわかった。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions [8.96091816092671]
emphRole Play (RP) という新しいフレームワークを提案する。
RPは、政策の多様性の課題を、より管理可能な役割の多様性に変えるために役割埋め込みを採用している。
ロール埋め込み観察で共通の方針を訓練し、他のエージェントのジョイントロール埋め込みを推定するためにロール予測器を使用し、学習エージェントが割り当てられた役割に適応するのを助ける。
論文 参考訳(メタデータ) (2024-11-02T07:25:48Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。