Fugu-MT 論文翻訳(概要): Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization

論文の概要: Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization

arxiv url: http://arxiv.org/abs/2310.07218v1
Date: Wed, 11 Oct 2023 06:09:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 00:16:40.325131
Title: Quantifying Agent Interaction in Multi-agent Reinforcement Learning for Cost-efficient Generalization
Title（参考訳）: コスト効率一般化のためのマルチエージェント強化学習におけるエージェント相互作用の定量化
Authors: Yuxin Chen, Chen Tang, Ran Tian, Chenran Li, Jinning Li, Masayoshi Tomizuka, Wei Zhan
Abstract要約: マルチエージェント強化学習(MARL)における一般化の課題エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
参考スコア（独自算出の注目度）: 63.554226552130054
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generalization poses a significant challenge in Multi-agent Reinforcement Learning (MARL). The extent to which an agent is influenced by unseen co-players depends on the agent's policy and the specific scenario. A quantitative examination of this relationship sheds light on effectively training agents for diverse scenarios. In this study, we present the Level of Influence (LoI), a metric quantifying the interaction intensity among agents within a given scenario and environment. We observe that, generally, a more diverse set of co-play agents during training enhances the generalization performance of the ego agent; however, this improvement varies across distinct scenarios and environments. LoI proves effective in predicting these improvement disparities within specific scenarios. Furthermore, we introduce a LoI-guided resource allocation method tailored to train a set of policies for diverse scenarios under a constrained budget. Our results demonstrate that strategic resource allocation based on LoI can achieve higher performance than uniform allocation under the same computation budget.
Abstract（参考訳）: 一般化はマルチエージェント強化学習(MARL)において大きな課題となる。エージェントが目に見えない共同プレイヤーによって影響を受ける程度は、エージェントのポリシーと特定のシナリオに依存する。この関係の定量的な検証は、様々なシナリオの効果的なトレーニングエージェントに光を当てている。本研究では,与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標である影響レベル(loi)について述べる。トレーニング中、より多様なコプレイエージェントがエゴエージェントの一般化性能を高めることが観察されるが、この改善は異なるシナリオや環境によって異なる。 LoIは、特定のシナリオにおけるこれらの改善の相違を予測するのに効果的である。さらに,制約予算下での多様なシナリオに対するポリシーセットのトレーニングに適したLoI誘導型リソース割り当て手法を提案する。その結果,loiに基づく戦略的資源割当は,同じ計算予算で一様割当よりも高い性能が得られることがわかった。

関連論文リスト

A Dual-Agent Adversarial Framework for Robust Generalization in Deep Reinforcement Learning [7.923577336744156]
両エージェント対応型政策学習フレームワークを提案する。このフレームワークは、エージェントが人間の事前知識を導入することなく、基礎となるセマンティクスを自発的に学習することを可能にする。実験により, 両エージェントの一般化性能が著しく向上することが確認された。
論文参考訳（メタデータ） (2025-01-29T02:36:47Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions [8.96091816092671]
emphRole Play (RP) という新しいフレームワークを提案する。 RPは、政策の多様性の課題を、より管理可能な役割の多様性に変えるために役割埋め込みを採用している。ロール埋め込み観察で共通の方針を訓練し、他のエージェントのジョイントロール埋め込みを推定するためにロール予測器を使用し、学習エージェントが割り当てられた役割に適応するのを助ける。
論文参考訳（メタデータ） (2024-11-02T07:25:48Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-12T21:38:40Z)
Effective Multi-Agent Deep Reinforcement Learning Control with Relative Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文参考訳（メタデータ） (2023-09-26T07:38:19Z)
Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-06-01T04:58:52Z)
Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文参考訳（メタデータ） (2022-03-07T17:32:35Z)
Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。 PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文参考訳（メタデータ） (2021-12-23T17:48:04Z)
Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文参考訳（メタデータ） (2020-06-07T18:28:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。