Fugu-MT 論文翻訳(概要): Learning Individual Policies in Large Multi-agent Systems through Local Variance Minimization

論文の概要: Learning Individual Policies in Large Multi-agent Systems through Local Variance Minimization

arxiv url: http://arxiv.org/abs/2212.13379v1
Date: Tue, 27 Dec 2022 06:59:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-29 15:55:15.394450
Title: Learning Individual Policies in Large Multi-agent Systems through Local Variance Minimization
Title（参考訳）: 局所分散最小化による大規模マルチエージェントシステムにおける個人政策の学習
Authors: Tanvi Verma, Pradeep Varakantham
Abstract要約: 多くのエージェントを持つマルチエージェントシステムでは、各エージェントの他のエージェントの価値への貢献は最小限である。エージェントの値の分散を最小限に抑える新しいマルチエージェント強化学習(MARL)機構を提案する。提案手法は, タクシー運転手の収益のばらつきを低減しつつ, 先行するアプローチよりも高いジョイント収益を提供できることを示す。
参考スコア（独自算出の注目度）: 8.140037969280716
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In multi-agent systems with large number of agents, typically the contribution of each agent to the value of other agents is minimal (e.g., aggregation systems such as Uber, Deliveroo). In this paper, we consider such multi-agent systems where each agent is self-interested and takes a sequence of decisions and represent them as a Stochastic Non-atomic Congestion Game (SNCG). We derive key properties for equilibrium solutions in SNCG model with non-atomic and also nearly non-atomic agents. With those key equilibrium properties, we provide a novel Multi-Agent Reinforcement Learning (MARL) mechanism that minimizes variance across values of agents in the same state. To demonstrate the utility of this new mechanism, we provide detailed results on a real-world taxi dataset and also a generic simulator for aggregation systems. We show that our approach reduces the variance in revenues earned by taxi drivers, while still providing higher joint revenues than leading approaches.
Abstract（参考訳）: 多数のエージェントを持つマルチエージェントシステムでは、通常、各エージェントの他のエージェントの価値への貢献は最小限である(例えば、Uber、Deliverooのような集約システム)。本稿では,各エージェントが自己関心を持ち,一連の意思決定を行ない,確率的非原子収集ゲーム(SNCG)として表現するマルチエージェントシステムについて考察する。非原子的およびほぼ非原子的エージェントを持つSNCGモデルにおける平衡解の鍵となる性質を導出する。これらの重要な平衡特性により、エージェントの値の分散を最小限に抑える新しいマルチエージェント強化学習(MARL)機構を提供する。本機構の実用性を実証するため,実世界のタクシーデータとアグリゲーションシステムのための汎用シミュレータについて詳細な結果を提供する。提案手法は,タクシー運転手による収益のばらつきを低減しつつ,先行するアプローチよりも高いジョイント収益を提供する。

関連論文リスト

LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。 LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。 LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文参考訳（メタデータ） (2024-12-12T12:47:09Z)
Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-12T21:38:40Z)
On the Complexity of Multi-Agent Decision Making: From Learning in Games to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文参考訳（メタデータ） (2023-05-01T06:46:22Z)
Decentralized scheduling through an adaptive, trading-based multi-agent system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文参考訳（メタデータ） (2022-07-05T13:50:18Z)
Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文参考訳（メタデータ） (2021-10-09T07:46:25Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。 ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文参考訳（メタデータ） (2021-06-10T04:32:20Z)
Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。 IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文参考訳（メタデータ） (2020-11-18T20:29:59Z)
Calibration of Shared Equilibria in General Sum Partially Observable Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文参考訳（メタデータ） (2020-06-23T15:14:20Z)
Distributed Reinforcement Learning for Cooperative Multi-Robot Object Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文参考訳（メタデータ） (2020-03-21T00:43:54Z)
Value Variance Minimization for Learning Approximate Equilibrium in Aggregation Systems [8.140037969280716]
集約システムにおける近似平衡解(ウィンウィン)の学習問題を考察する。本稿では,集約システムにおける近似平衡解(ウィンウィン)の学習の問題について考察する。
論文参考訳（メタデータ） (2020-03-16T10:02:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。